找到70个数据集

标签: 语言资源

过滤结果
  • Lexibank_Based_嘉绒语族语言历史比较词汇数据集2023

    2026年2月6日 0 12 5

    数据集概述 本数据集是基于Lai和List 2023年《嘉绒语族语言比较》的CLDF格式词汇数据,包含嘉绒语族语言的历史比较词汇信息,由莱比锡马克斯·普朗克进化人类学研究所发布,版本为1.0,仅含一个压缩文件。 文件详解 文件名称:lexibank/lairgyalrong-v0.4.zip 文件格式:ZIP...
    packageimg
  • 人类语言资源库_基于博罗罗语的词汇数据库存档文件

    2026年2月1日 30 39 18

    数据集概述 本数据集为Bororoan词汇数据库,包含一个压缩文件,属于tupian-language-resources目录下的语言资源,未提供具体描述,文件类型单一为压缩包。 文件详解 文件名称:bororo-v0.9.5.zip 文件格式:ZIP 字段映射介绍:压缩包文件,包含Bororoan词汇数据库相关内容,具体内部结构及字段信息未提供预览。...
    packageimg
  • English_Yoruba_英语到约鲁巴语翻译数据集

    2026年1月31日 30 7 6

    数据集概述 本数据集为英语到约鲁巴语的翻译数据,适用于Android手机的短消息服务语音和文本翻译场景,包含1个文件,无目录结构,主要文件格式为.xlsx。 文件详解 文件名称:Updated Translation Datasets.xlsx 文件格式:XLSX...
    packageimg
  • LIM_SOAS_Based藏语动词配价可视化词典数据

    2026年1月31日 30 130 41

    数据集概述 本数据集包含支撑《藏语动词配价可视化词典》的JSON格式数据及其说明文档,由英国研究与创新署(UKRI)资助、伦敦大学亚非学院(SOAS)开展的“动态词典学:藏语动词史”(LIM)项目产出,总计包含两个文件。 文件详解 数据文件 文件名称:LIM_TibetanVerbValencyDictionary_data.json...
    packageimg
  • dictionaria_kalamang_语言词典数据

    2026年1月31日 30 82 48

    数据集概述 本数据集为Kalamang语言词典,由Visser, Eline于2020年发布,属于Dictionaria系列第13卷,内容涵盖1-2737页。数据以压缩包形式提供,是研究Kalamang语言的重要资源。 文件详解 文件名称:dictionaria/kalamang-v1.2.zip 文件格式:ZIP...
    packageimg
  • Kam_kdx_Lesage非洲语言词汇表数据2019

    2026年1月31日 30 197 140

    数据集概述 本数据集包含Kam语言(ISO 639-3: kdx;Glottocode: kamm1249)的词汇表,该语言属于尼日尔-刚果语系,主要分布在尼日利亚中东部,分类较困难。数据可作为RefLex资源的引用来源,当前仅提供词形、释义和词类信息,未来将发布包含音系和语法介绍的完整版词典。 文件详解...
    packageimg
  • TLS_Based_中国语言学词库_2024_07_23

    2026年1月30日 30 169 153

    数据集概述 本数据集为中国语言学词库(Thesaurus Linguae Sericae, TLS)的互联Markdown文件压缩包,包含一份2024年7月23日的词库数据压缩文件,无额外目录结构,主要用于语言学研究与词库应用场景。 文件详解 文件名称:tls-md-2024-07-23.zip 文件格式:ZIP...
    packageimg
  • Ihanzu_ELAR_词汇诱导会话修改版音频处理教程数据

    2026年1月30日 30 145 125

    数据集概述 本数据集为Andrew Harvey开展的3次Ihanzu词汇诱导会话的修改版本,原始数据来自濒危语言档案库(ELAR)。数据已重采样为16 kHz单声道16位PCM格式,适用于音频处理教程,包含3个文件,可通过Zenodo获取。 文件详解 文件名称:ihanzu-harvey-0596_20180518opq.zip 文件格式:ZIP...
    packageimg
  • AI4D_Based法语至丰贝埃维神经机器翻译平行文本数据集

    2026年1月29日 30 168 141

    数据集概述 本数据集是面向神经机器翻译任务的多语言平行文本集合,包含从法语到丰贝语(多哥语言)、法语到埃维语(贝宁语言)的平行句子对,总计七万余条标注数据,适用于机器翻译和句子分类任务,由AI4D倡议贡献。 文件详解 文件名称:French_to_fongbe.csv 文件格式:CSV...
    packageimg
  • Sino_Tibetan_Based_汉藏语系降雨表达类型学研究辅助数据

    2026年1月21日 30 178 114

    数据集概述 本数据集为汉藏语系降雨表达类型学研究的补充数据,核心内容围绕汉藏语系语言中降雨相关表达的类型学特征展开,支持对该语言现象的系统性分析。数据集包含1个文件,整体结构简单,无目录层级划分。 文件详解 文件名称:Rain in ST supplementary data.xlsx 文件格式:XLSX...
    packageimg
  • La_Pola_Siero_Based_阿斯图里亚斯地图问题8方言语料数据

    2026年1月21日 30 210 67

    数据集概述 本数据集为阿斯图里亚斯地图相关的问题8语料,基于La Pola Siero方言构建,包含1个文档文件,无训练/测试、数据/标签或原始/处理数据拆分,文件类型单一为docx格式。 文件详解 文件名称:Mapa de Asturias.Pregunta8.docx 文件格式:docx...
    packageimg
  • Interpreters_Based_现场与远程口译融洽度挑战多模态管理数据

    2026年1月20日 30 20 9

    数据集概述 本数据集包含口译员在现场及视频远程口译互动中,通过语言、副语言和具身资源管理融洽度挑战的量化数据。数据源于对口译视频互动的系统编码,辅以眼动追踪数据,涉及1个文件。 文件详解 文件名称:Dataset_Repository_Interpreters' multimodal management of rapport.xlsx...
    packageimg
  • IMTVault_Based_低资源语言语际标注文本提取与富集数据集_2022

    2026年1月19日 30 38 11

    数据集概述 本数据集为IMTVault,主要内容是从语法描述和类型学调查文章中提取并富集的低资源语言语际标注文本。数据集由1个压缩文件构成,无训练测试、数据标签或原始处理数据的拆分,适用于低资源语言的语言学研究与资源开发。 文件详解 文件名称:cldf-datasets/imtvault-v1.2.zip 文件格式:ZIP...
    packageimg
  • Turkish_Lexicon_Emotions_MaxQDA词典功能专用数据

    2026年1月19日 30 166 55

    数据集概述 本数据集为专为MaxQDA软件词典功能制备的土耳其语情感词汇词典,包含恐惧、悲伤、愤怒、失望、快乐五类情感词汇,由欧盟Horizon 2020研究与创新计划资助项目产出,共5个文件。 文件详解 恐惧情感词汇文件 文件名称:FEAR.xlsx 文件格式:XLSX 字段映射介绍:包含与“恐惧”情感相关的土耳其语词汇集合 悲伤情感词汇文件...
    packageimg
  • dictionaria_sanzhi_Sanzhi_Dargwa词典数据_2019

    2026年1月18日 30 172 30

    数据集概述 本数据集为Sanzhi Dargwa语言的词典数据,由Diana Forker于2019年发布,收录于Dictionaria第5卷。数据以压缩包形式提供,包含Sanzhi Dargwa语言的词典内容,可用于语言研究、词典编纂等相关场景。 文件详解 文件名称:dictionaria/sanzhi-v1.2.zip 文件格式:ZIP...
    packageimg
  • CLDF_Based_1853年Mentawei群岛数字词汇比较数据集_2_0_0版

    2026年1月18日 30 28 17

    数据集概述 本数据集基于Carl Benjamin Hermann von Rosenberg1853年发表的《De Mentawei-Eilanden en Hunne Bewoners》文献,提取并整理为CLDF格式的比较数字词汇数据,用于研究Mentawei群岛语言中的数字系统特征,当前为2.0.0版本,包含1个压缩文件。 文件详解...
    packageimg
  • Hunter_Gatherer_Based_语言数据库衍生CLDF数据集_2021版

    2026年1月18日 30 26 22

    数据集概述 本数据集是基于Bowern等人2021年的《Hunter-Gatherer Language Database》生成的CLDF格式数据集,包含1个压缩文件,旨在为语言学研究提供结构化的狩猎采集者语言相关数据,便于跨研究场景的复用与分析。 文件详解 压缩文件 文件名称:lexibank/huntergatherer-v2.1.zip...
    packageimg
  • Concepticon_CLDF_Concepticon_3_4_0概念列表链接资源数据集

    2026年1月17日 30 5 3

    数据集概述 本数据集是Concepticon 3.4.0版本的CLDF格式资源,由List等学者编辑,旨在为概念列表的链接提供支持。它由马克斯·普朗克进化人类学研究所发布,可在线获取,包含一个压缩文件,无训练测试或数据标签等拆分结构。 文件详解 文件名称:concepticon/concepticon-cldf-v3.4.0.zip 文件格式:ZIP...
    packageimg
  • dictionaria_palula_Based_Palula语言词典数据2019

    2026年1月15日 30 136 50

    数据集概述 本数据集为Palula语言词典,由Henrik Liljegren于2019年发布,收录于Dictionaria第3卷,共1-2700页。数据以压缩包形式提供,包含Palula语言的词典内容,是研究Palula语言的重要资源。 文件详解 文件名称:dictionaria/palula-v1.2.zip 文件格式:ZIP...
    packageimg
  • Multi_CAST_Nafsan_Based多语言口语文本标注语料库数据2311

    2026年1月15日 30 16 2

    数据集概述 本数据集为Multi-CAST多语言口语文本标注语料库的一部分,具体包含Nafsan语言的口语文本标注数据。该语料库由班贝格大学发布,属于Multi-CAST项目的2311版本,是多语言口语文本资源的重要组成部分。 文件详解 压缩文件 文件名称:mcnafsan-v2311.zip 文件格式:ZIP 字段映射介绍:压缩包内包含Multi-...
    packageimg