-
冰岛语社会语言学田野调查数据集2019
数据集概述 本数据集是2019年科隆大学“科隆城市田野调查”语言学学士研讨会的冰岛语研究成果,包含社会语言学问卷、斯瓦迪士词汇表录音及数字二和五的结构化诱发实验数据,支持冰岛语社会语言学特征分析。 文件详解 文档类文件(PDF格式):...
-
图皮语依存树库数据集
数据集概述 本数据集是图皮语依存树库(TuDeT),包含一个压缩文件,提供图皮语语言资源,用于自然语言处理(NLP)相关研究,为图皮语的句法分析提供数据支持。 文件详解 文件名称: tupian-language-resources/tudet-v0.4.zip 文件格式: ZIP(压缩文件) 内容说明:...
-
英语与乌兹别克语主题词典创建的计算机技术应用理论与实践研究
数据集概述 本数据集聚焦英语与乌兹别克语主题词典创建中的计算机技术应用,涵盖理论探讨与实践分析,包括技术应用的优势、局限、方法考量,以及两种语言的语言学特征带来的挑战与机遇。 文件详解 数据集包含一个PDF格式的文档文件,具体如下: - 文件名称:Alisherova Shahnoza Asqarovna.pdf - 文件格式:PDF (.pdf) -...
-
加泰罗尼亚语语义文本相似度基准数据集1_0_2
数据集概述 该数据集是用于评估加泰罗尼亚语语义文本相似度(STS)的基准语料库,包含三千余对人工标注的句子对,标注遵循SemEval挑战指南,基于0到5分的相似度评分标准,为语义相似度模型的构建与评估提供支持。 文件详解 文件名称:STS-ca_v.1.0.2.zip 文件格式:ZIP压缩包...
-
基于地区名称构建词汇语义场数据集
数据集概述 该数据集围绕基于地区名称构建词汇语义场的主题展开,包含一份相关的PDF文档,为研究词汇语义场的构建方法提供基础资料。 文件详解 文件名称:Sobirova Feruza Islomjon qizi.pdf 文件格式:PDF 内容说明:文档围绕“基于地区名称构建词汇语义场”的主题展开,具体内容需查阅文档获取 适用场景...
-
嘉绒语族语言数据库衍生CLDF数据集2013
数据集概述 本数据集是基于2013年Nagano和Prins创建的“嘉绒语族语言数据库”(rGyalrongic Languages Database)转换得到的CLDF格式数据集,为嘉绒语族语言研究提供标准化数据支持。 文件详解 文件名称: lexibank/naganorgyalrongic-v3.1.zip 文件格式: ZIP压缩包 内容说明:...
-
格鲁吉亚语语言资源数据集2018
数据集概述 本数据集包含2018年夏季学期在柏林洪堡大学语言学硕士课程中收集的格鲁吉亚语语言资源,包括ASJP词汇表录音、不及物动词形态形式录音及相关元数据文档,为格鲁吉亚语语言学研究提供原始语音与文本数据支持。 文件详解 词汇表录音文件组(20180528_ASJPSwadesh_HK_EP):...
-
基于Lee_蔡家语音特征_的CLDF数据集2023
数据集概述 该数据集为CLDF格式,源自Lee于2023年发表的《从历时视角看蔡家语的显著语音特征》一文,核心围绕蔡家语语音特征的历时语言学分析,以压缩包形式存储,为相关语言研究提供结构化数据支持。 文件详解 文件名称:lexibank/leecaijia-v1.3.zip 文件格式:ZIP(.zip)...
-
跨语言数词系统构成结构数据集2025
数据集概述 该数据集呈现了2025年Rubehn等人关于跨语言数词系统构成结构的研究成果,包含数词系统构成结构的标注与推理相关数据,为计算语言类型学和多语言自然语言处理研究提供支持。 文件详解 文件名称:numeralbank/cosinus-v1.1.zip 文件格式:ZIP压缩包(.zip)...
-
乌兹别克语_英语药学术语词库的构建技术与语义领域
数据集概述 本数据集包含一份关于乌兹别克语-英语药学术语词库的研究文档,聚焦于词库的构建技术与语义领域划分,为药学领域双语术语资源的开发与应用提供参考。 文件详解 文件名称: Khudoyqulova Dlafruz Kabildjanovna.pdf 文件格式: PDF (.pdf) 文件内容: 文档围绕乌兹别克语-...
-
伊博语重音符号恢复数据集
伊博语重音符号恢复数据集 数据来源:互联网公开数据 标签:伊博语,重音符号恢复,自然语言处理,机器学习,文本处理,语言资源 数据概述: 本数据集包含超过50万条经过精心整理的伊博语文本数据,数据来源包括开放获取的伊博语文学文本,如书籍、新闻文章等。数据集经过转录和预处理,旨在为AI模型的训练提供高质量的文本资源,特别是在模式识别领域。 数据用途概述:...
-
印度英语-阿迪提语料库数据集Hinglish-AditiCorpusDataset-donutkashvi
印度英语-阿迪提语料库数据集Hinglish-AditiCorpusDataset-donutkashvi 数据来源:互联网公开数据 标签:印度英语,语料库,自然语言处理,文本分析,语言学,机器学习,文本数据,语言资源 数据概述: 该数据集包含来自阿迪提语料库的印度英语文本数据,记录了印度英语的各种语言现象。主要特征如下:...
-
维基百科土耳其语数据集Wiki-TurkishDataset-eneskulak
维基百科土耳其语数据集Wiki-TurkishDataset-eneskulak 数据来源:互联网公开数据 标签:维基百科,土耳其语,数据集,自然语言处理,文本分析,机器学习,语言资源,文本挖掘 数据概述: 该数据集包含来自维基百科的土耳其语文本数据,记录了维基百科平台上土耳其语条目的完整内容。主要特征如下:...
-
通用拼音输入法词库数据集GPNUAllWordsDataset-nazmuddhohaansary
通用拼音输入法词库数据集GPNUAllWordsDataset-nazmuddhohaansary 数据来源:互联网公开数据 标签:词库,输入法,数据集,中文,自然语言处理,语言资源,文本处理,机器学习 数据概述: 该数据集包含通用拼音输入法(GPNU)的完整词库数据,记录了中文词语及其对应的拼音信息。主要特征如下:...
-
公司英语数据集CompanyEnglishDataset-rosdianashahril
公司英语数据集CompanyEnglishDataset-rosdianashahril 数据来源:互联网公开数据 标签:英语学习,企业培训,数据集,语言资源,自然语言处理,教育技术,商业沟通,职场英语 数据概述: 该数据集包含来自企业环境的英语文本数据,记录了公司内部沟通、商业邮件、培训资料等场景中的英语使用情况。主要特征如下:...
-
南非北部索托语文本对齐数据集NorthernSothoTextAlignmentDataset-girlyphaladi
南非北部索托语文本对齐数据集NorthernSothoTextAlignmentDataset-girlyphaladi 数据来源:互联网公开数据 标签:文本对齐, 机器翻译, 语言学, 南非语, 语料库, 自然语言处理, 文本分析, 语言资源 数据概述: 该数据集包含来自南非北部索托语的文本对齐数据,记录了不同语句在语料库中的对应关系。主要特征如下:...
-
尼日利亚努佩语单语语料库数据集NupeMonolingualCorpus-davidvictor297
尼日利亚努佩语单语语料库数据集NupeMonolingualCorpus-davidvictor297 数据来源:互联网公开数据 标签:语言学, 语料库, 努佩语, 自然语言处理, 文本分析, 语言资源, 文本语料, 尼日利亚 数据概述:...
-
南非国家文化与语言技术委员会NCLT斯瓦希里语料库元数据数据集NCLTSwahiliCorpusMetadata-rewardmathebula
南非国家文化与语言技术委员会NCLT斯瓦希里语料库元数据数据集NCLTSwahiliCorpusMetadata-rewardmathebula 数据来源:互联网公开数据 标签:斯瓦希里语, 语料库, 元数据, 语言学, 文本分析, 语言资源, 南非, 自然语言处理 数据概述:...
-
乌尔都语罗马转写资源数据集-zeshanali
乌尔都语罗马转写资源数据集-zeshanali 数据来源:互联网公开数据 标签:乌尔都语,罗马转写,语言资源,自然语言处理,数据集,文本分析,机器翻译,文本转换 数据概述: 该数据集包含了乌尔都语的罗马字母转写文本资源。主要特征如下: 时间跨度:数据涵盖了不同时期的乌尔都语文本。 地理范围:数据主要来源于乌尔都语使用者群体。...
-
英语-豪萨语翻译语料库数据集English-HausaTranslationCorpusDataset-gigikenneth
英语-豪萨语翻译语料库数据集English-HausaTranslationCorpusDataset-gigikenneth 数据来源:互联网公开数据 标签:语言翻译,语料库,自然语言处理,多语言,机器翻译,文本分析,语言资源,人工智能 数据概述: 该数据集包含来自英语到豪萨语的平行语料,记录了双语文本对,适用于机器翻译和语言学研究。主要特征如下:...



