找到6个数据集

格式: ZIP 标签: NLP工具开发

过滤结果
  • Rantanplan_Source_西班牙语文本韵律分析工具开发包

    2026年1月27日 30 74 11

    数据集概述 本数据集为西班牙语文本韵律分析工具Rantanplan的开发包,包含一个压缩文件,可用于西班牙语文本的韵律分析相关研究与工具开发。 文件详解 文件名称:rantanplan-develop.zip 文件格式:ZIP 字段映射介绍:压缩包内包含西班牙语文本韵律分析工具Rantanplan的开发相关文件,具体内容需解压后查看。 适用场景...
    packageimg
  • Tibetan_SpaCy_Based_藏语语言模型工具包_ver1_0_0_1

    2026年1月15日 30 146 0

    数据集概述 本数据集为适用于SpaCy环境的藏语语言模型工具包,由James Engels开发,属于伦敦大学亚非学院与莱比锡大学联合项目Divergent Discourses。模型使用Botok分词器处理藏语,替换音节分隔符为空格,包含停用词列表,当前版本对标准词汇处理效果良好,正开发更复杂版本,共含3个文件。 文件详解...
    packageimg
  • Ajumbu_Lower_Fungom_Based_阿琼布语500名词词表完整数据

    2025年12月23日 30 191 28

    数据集概述 本数据集为Ajumbu语言的500个名词词表,Ajumbu是喀麦隆西北部Menchum区Fungom分区Lower Fungom地区使用的Yemne-Kimbi语言变体,具有声调特征和名词类词缀,因使用者生活经历差异存在个体变异。 文件详解 文件名称: KPAAMCAM_NTs_AJUMBU-500 NOUNS...
    packageimg
  • 提格利尼亚语语言建模数据集TLMD_v1_0_0

    2025年12月13日 30 167 35

    数据集概述 该数据集是为提格利尼亚语语言建模构建的单语种数据集,是同类数据中规模最大的提格利尼亚语数据集。数据经轻量清理,包含训练集(百分之九十八)和验证集(百分之二),支持自然语言处理研究。 文件详解 文件名称: tlmd_v1.0.0.zip 文件格式: ZIP压缩包 数据结构:...
    packageimg
  • COVID_19相关生物医学自然语言处理词典与标注语料库工具包

    2025年12月13日 30 185 54

    数据集概述 本数据集为生物医学自然语言处理任务提供工具包,包含COVID-19相关的英文词典、标注语料库及代码工作流。词典覆盖疾病、病毒、变异株等术语,用于从CORD-19数据集提取信息,构建大型银标准语料库,辅以人工标注的金标准语料库,支持命名实体识别等文本分析任务。 文件详解...
    packageimg
  • 白俄罗斯语GLUE开放权重模型性能分析数据集

    2025年12月5日 30 1 0

    数据集概述 该数据集是论文《BelarusianGLUE: Analyzing Performance of Open-weight...
    packageimg