找到2个数据集

标签: 词元数量

过滤结果
  • CPLP_tuites_Based_葡萄牙语多中心推特语料库数据_2022

    2026年1月21日 30 158 31

    数据集概述 本数据集为CPLP:tuítes葡萄牙语多中心推特语料库,包含来自安哥拉、巴西、佛得角等七个葡语国家53个新闻机构账号的125,827条推特,共2,633,507个词元。涵盖原始推文、元数据及标注文件三类资源,是研究葡萄牙语多中心变体的结构化语料资源。 文件详解 原始推文文件 文件名称:tweets_untagged.zip...
    packageimg
  • HEREDITermCorpus_pt_V0_1_HEREDITARY项目_葡萄牙语微生物群_肠_脑轴文本语料库

    2025年12月27日 30 176 73

    数据集概述 本数据集是HEREDITARY项目下的葡萄牙语文本语料库,聚焦微生物群-肠-脑轴(MGBA)及其在神经退行性疾病中的作用,包含126篇文档、100,610个句子、约200万词汇和267万词元,为相关领域研究提供结构化文本资源。 文件详解 文件名称:HerediTermCorpus_pt.xlsx 文件格式:XLSX...
    packageimg