找到12个数据集

标签: 语言资源开发

过滤结果
  • swadesh_Source_库尔曼吉语斯瓦迪士核心词表数据

    2026年2月8日 30 117 87

    数据集概述 本数据集为库尔曼吉语(Kurmanji)的斯瓦迪士核心词表数据,包含一个压缩文件,无目录结构,未划分训练/测试集、数据/标签集或原始/处理数据集,主要用于语言学领域的词汇研究与分析。 文件详解 压缩文件 文件名称:swadesh-V1.1.zip 文件格式:ZIP...
    packageimg
  • LIM_SOAS_Based藏语动词配价可视化词典数据

    2026年1月31日 30 66 14

    数据集概述 本数据集包含支撑《藏语动词配价可视化词典》的JSON格式数据及其说明文档,由英国研究与创新署(UKRI)资助、伦敦大学亚非学院(SOAS)开展的“动态词典学:藏语动词史”(LIM)项目产出,总计包含两个文件。 文件详解 数据文件 文件名称:LIM_TibetanVerbValencyDictionary_data.json...
    packageimg
  • Multi_CAST_Based_多语言口语文本标注语料库数据_v2211

    2026年1月21日 30 25 16

    数据集概述 本数据集为Multi-CAST项目中的Tulil语料库,属于多语言口语文本标注语料库,由Meng, Chenxi于2022年创建,收录于班贝格大学发布的Multi-CAST版本2211中,包含医疗相关的CT语义关键词,是研究多语言口语文本标注的基础资源。 文件详解 文件名称:Multi-CAST/mctulil-v2211.zip...
    packageimg
  • IMTVault_Based_低资源语言语际标注文本提取与富集数据集_2022

    2026年1月19日 30 172 138

    数据集概述 本数据集为IMTVault,主要内容是从语法描述和类型学调查文章中提取并富集的低资源语言语际标注文本。数据集由1个压缩文件构成,无训练测试、数据标签或原始处理数据的拆分,适用于低资源语言的语言学研究与资源开发。 文件详解 文件名称:cldf-datasets/imtvault-v1.2.zip 文件格式:ZIP...
    packageimg
  • Multi_CAST_Based_Kalamang语言口语文本标注语料库数据_v2311

    2026年1月13日 30 124 117

    数据集概述 本数据集为Multi-CAST多语言口语文本标注语料库的一部分,包含Kalamang语言的标注口语文本数据。数据集由Eline Visser于2023年贡献,属于Multi-CAST语料库的2311版本,旨在为语言学研究提供标准化的多语言口语资源。 文件详解 文件名称:Multi-CAST/mckalamang-v2311.zip...
    packageimg
  • 乌兹别克语构词方法研究文档

    2025年12月19日 30 80 1

    数据集概述 本数据集为一份研究文档,探讨乌兹别克语中的构词方法,涵盖词缀法、重复法、语义构词法、合成法、缩写法及语音构词法,通过举例说明各方法对丰富语言的作用,并提及语言学家对构词过程语言学意义的观点。 文件详解 文件名称: 73.pdf 文件格式: PDF (.pdf) 文件内容:...
    packageimg
  • 乌兹别克语语言描述数据集

    2025年12月14日 30 134 69

    数据集概述 本数据集包含一份关于乌兹别克语语言描述的PDF文档,文档围绕乌兹别克语的词语、短语及其语言学特征展开,为乌兹别克语语言研究提供基础资料。 文件详解 文件名称: Ибрагимова Муқаддас Абдуллаевна.pdf 文件格式: PDF (.pdf) 文件内容:...
    packageimg
  • 加泰罗尼亚语语义文本相似度基准数据集1_0_2

    2025年12月9日 30 139 66

    数据集概述 该数据集是用于评估加泰罗尼亚语语义文本相似度(STS)的基准语料库,包含三千余对人工标注的句子对,标注遵循SemEval挑战指南,基于0到5分的相似度评分标准,为语义相似度模型的构建与评估提供支持。 文件详解 文件名称:STS-ca_v.1.0.2.zip 文件格式:ZIP压缩包...
    packageimg
  • 西班牙语方言词汇使用图数据集

    2025年12月8日 30 11 1

    数据集概述 该数据集包含西班牙语的方言词汇使用图(Word Usage Graphs, WUGs),记录了西班牙及古巴、哥伦比亚等西班牙语变体中词汇的使用差异。数据标注了词汇使用的方言分组与时间中点(约2000-2014年),并将噪声使用标注为聚类标签-1,为研究西班牙语词汇语义的方言变异提供支持。 文件详解 文件名称: diawug.zip...
    packageimg
  • 基于地区名称构建词汇语义场数据集

    2025年12月7日 30 138 121

    数据集概述 该数据集围绕基于地区名称构建词汇语义场的主题展开,包含一份相关的PDF文档,为研究词汇语义场的构建方法提供基础资料。 文件详解 文件名称:Sobirova Feruza Islomjon qizi.pdf 文件格式:PDF 内容说明:文档围绕“基于地区名称构建词汇语义场”的主题展开,具体内容需查阅文档获取 适用场景...
    packageimg
  • 乌兹别克语_英语药学术语词库的构建技术与语义领域

    2025年12月4日 30 81 79

    数据集概述 本数据集包含一份关于乌兹别克语-英语药学术语词库的研究文档,聚焦于词库的构建技术与语义领域划分,为药学领域双语术语资源的开发与应用提供参考。 文件详解 文件名称: Khudoyqulova Dlafruz Kabildjanovna.pdf 文件格式: PDF (.pdf) 文件内容: 文档围绕乌兹别克语-...
    packageimg
  • 德语词汇历时使用相关性判断数据集2021

    2025年12月4日 30 135 66

    数据集概述 该数据集包含针对德语词汇使用对的历时语义相关性判断数据,基于词汇语义变化标注框架构建,版本为3.0.0,更新于2021年12月15日,为研究词汇语义随时间的演变提供支持。 文件详解 数据集包含一个压缩文件,具体说明如下: - 文件名称: durel.zip - 文件格式: ZIP压缩包 (.zip) - 内容说明:...
    packageimg