找到5个数据集

标签: 语言标准化

过滤结果
  • Hunter_Gatherer_Based_语言数据库衍生CLDF数据集_2021版

    2026年1月18日 30 58 37

    数据集概述 本数据集是基于Bowern等人2021年的《Hunter-Gatherer Language Database》生成的CLDF格式数据集,包含1个压缩文件,旨在为语言学研究提供结构化的狩猎采集者语言相关数据,便于跨研究场景的复用与分析。 文件详解 压缩文件 文件名称:lexibank/huntergatherer-v2.1.zip...
    packageimg
  • ATReconstructions_Source_南岛_台语原始语言重建比较数据集_v1_1

    2026年1月12日 30 45 26

    数据集概述 本数据集包含原始南岛-台语、原始南岛语、原始侗台语的重建内容,以及来自原始台语、原始黎语、原始临高语、原始仡佬语、原始侗水语和拉珈语的支持数据,为南岛-台语系语言比较研究提供结构化参考。 文件详解 文件名称:Smith.ATReconstructions.v1.1.xlsx 文件格式:XLSX 字段映射介绍:包含原始南岛-...
    packageimg
  • 库孙达语音频与视频文件元数据2019

    2025年12月8日 30 140 106

    数据集概述 本数据集包含2019年8月3日在尼泊尔加德满都对尼泊尔最后两位已知库孙达语使用者Gyani Maiya Sen Kusunda和Kamala Khatri(Sen Kusunda)进行访谈的所有音频和视频文件的元数据。 文件详解 文件名称:ALL VIDEO FILES...
    packageimg
  • 世界借词数据库衍生CLDF数据集2009

    2025年12月4日 30 200 57

    数据集概述 该数据集是基于2009年Haspelmath和Tadmor主编的《世界借词数据库》生成的CLDF格式数据集,为语言研究领域提供标准化的借词数据支持。 文件详解 文件名称: lexibank/wold-v4.1.zip 文件格式: ZIP压缩包 内容说明: 包含基于《世界借词数据库》衍生的CLDF格式数据,具体字段信息需解压后查看原始数据结构...
    packageimg
  • 学习平等高级数据集

    2025年4月25日 30 25 11

    学习平等高级数据集 数据来源:互联网公开数据 标签:内容分析,主题建模,自然语言处理,词性标注,许可证限制,数据特征提取,语言标准化 数据概述: 本数据集包含三个主要文件:content_advanced.csv、topics_advanced.csv 和 license_limitations.csv。 1. content_advanced.csv...
    packageimg