数据集 - 海数据

NICKLE_Based_韩国英语学习者中介语语料库数据

2026年1月30日 30 169 62

数据集概述本数据集为NICKLE（Neungyule韩国英语学习者中介语语料库），含约100万词，包含书面和口语内容（比例约9:1），按主题和交际语境分为不同文本类型。语料库未明确标注 proficiency 水平，主要涵盖基础至中级水平，部分含高级文本，可通过来源大学名称或文本长度识别。文件详解文件名称：Basic statistical...

ZIP

forTEXT_Based_叙事学历史文本标注集_可供下载

2026年1月30日 30 184 36

数据集概述本数据集为叙事学（历史文本方向）标注集，适用于标注文本中的叙事元素，包含历史文本内容分析的基础分类，具体用于人物与情节分析。数据集提供XML格式的标注集文件，可支持叙事文本的结构化标注工作。文件详解文件名称：forTEXT_Tagset_Narratologie_histoire.xml 文件格式：XML...

ZIP

Rantanplan_Source_西班牙语文本韵律分析工具开发包

2026年1月27日 30 198 86

数据集概述本数据集为西班牙语文本韵律分析工具Rantanplan的开发包，包含一个压缩文件，可用于西班牙语文本的韵律分析相关研究与工具开发。文件详解文件名称：rantanplan-develop.zip 文件格式：ZIP 字段映射介绍：压缩包内包含西班牙语文本韵律分析工具Rantanplan的开发相关文件，具体内容需解压后查看。适用场景...

ZIP

Bangla_REX_Based_孟加拉语关系抽取数据集_完整标注版

2026年1月23日 30 149 133

数据集概述本数据集是针对孟加拉语关系抽取任务构建的专用数据集，基于结构化知识库和标注语料的理论框架生成。包含63,256条条目组成的孟加拉语知识库（KB）、90,441条带命名实体识别（NER）和词性标注（POS）的文本语料，以及440个孟加拉语地点助记符，可直接用于关系抽取任务。文件详解 location_mnemonics.xlsx...

ZIP

Tibetan_SpaCy_Based_藏语语言模型工具包_ver1_0_0_1

2026年1月15日 30 202 151

数据集概述本数据集为适用于SpaCy环境的藏语语言模型工具包，由James Engels开发，属于伦敦大学亚非学院与莱比锡大学联合项目Divergent Discourses。模型使用Botok分词器处理藏语，替换音节分隔符为空格，包含停用词列表，当前版本对标准词汇处理效果良好，正开发更复杂版本，共含3个文件。文件详解...

ZIP

KPAAMCAM_NTs_MUNKEN_Based_蒙肯语225词表词汇特征分析完整数据

2025年12月18日 30 161 7

数据集概述本数据集是一份包含225个词汇的蒙肯语词表，蒙肯语是喀麦隆西北部门丘姆省丰贡分区下属丰贡地区使用的一种声调语言，属于耶姆内-金比语族。词表记录了两位咨询人提供的词汇，存在个体词汇差异。文件详解文件名称: KPAAMCAM_NTs_MUNKEN-3NGT-4NUN_225Wordlist_20221-02-25.pdf 文件格式: PDF...

ZIP

找到6个数据集