找到4个数据集

标签: 训练语料

过滤结果
  • Multi_CAST_Based_Multi_CAST_Teop多语言医疗CT标注语音文本数据集_V1905

    2025年12月29日 30 204 68

    数据集概述 本数据集为Multi-CAST多语言标注语音文本语料库的一部分,聚焦医疗CT相关的语音文本标注内容。数据由班贝格大学发布,版本为1905,包含1个压缩文件,无训练测试或数据标签拆分,核心语义关键词为医疗CT,是研究多语言医疗语音文本标注的基础语料。 文件详解 压缩文件 文件名称:Multi-CAST/mcteop-v1905.zip...
    packageimg
  • 爱尔兰民间传说与格雷戈里夫人改编文本语料库

    2025年12月23日 30 10 2

    数据集概述 该数据集包含十四篇英文爱尔兰民间传说原文及十四篇格雷戈里夫人的英文改编文本,支持原文与文学改写的比较分析,可用于研究编辑风格、改编实践及通过重述塑造爱尔兰文化遗产的过程。 文件详解 metadata.xlsx:Excel格式,可能包含语料库的元数据信息 README.txt:纯文本格式,提供数据集的基本说明和使用指引 original-...
    packageimg
  • 索罕双音词的自动形态数据集

    2025年12月11日 30 30 11

    数据集概述 本数据集聚焦于“索罕”双音词的自动形态分析,包含一个PDF格式的文档文件,为相关语言学研究提供基础数据支持。 文件详解 文件名称: Moshoribova Qunduzoy Sherimmat qizi.pdf 文件格式: PDF (.pdf) 文件内容: 文档核心围绕“索罕”双音词的自动形态分析展开,具体内容需通过PDF文件查看。...
    packageimg
  • PAN12作者识别归属数据集

    2025年12月5日 30 52 35

    数据集概述 该数据集为PAN12作者识别归属任务提供训练语料,包含不同的归属和聚类场景。相比往届,语料调整为较小作者群体的较大文档,更贴近传统精读分析的典型案例,数据来源为Feedbooks.com的免费小说集。 文件详解 文件名称: pan12-authorship-attribution-corpora.zip 文件格式: ZIP压缩包 内容说明:...
    packageimg