找到8个数据集

格式: ZIP 标签: NLP训练数据

过滤结果
  • YouTube_Abusive_Comments_数据集

    2026年1月30日 30 182 14

    数据集概述 本数据集收集了来自YouTube热门视频(如音乐视频、《小猪佩奇》等动画片)的辱骂评论及特定词汇,包含性辱骂评论等内容,为社交媒体评论内容分析提供基础数据支持。 文件详解 文件名称:Sexual Abusive Comments by Roma3 & INNO.xlsx 文件格式:XLSX...
    packageimg
  • Biblical_Quotations_GT_圣经引文标注研究数据集

    2026年1月25日 30 185 110

    数据集概述 本数据集为“Aggadic文献中复杂引文模式自动检测”项目的研究数据,包含标注的圣经引文及相关模式数据,由海法大学团队构建。总计56个文件,含TSV格式的标注数据、JSON格式的关系层与标签集定义文件,用于支持宗教文本中圣经引文的自动识别与分析研究。 文件详解 TSV数据文件(50个)...
    packageimg
  • neurodegenerative_NLP_based神经退行性疾病临床轨迹识别研究数据

    2026年1月13日 30 9 2

    数据集概述 本数据集与“Identification of clinical disease trajectories in neurodegenerative disorders with natural language...
    packageimg
  • CONTRAST_IT_Corpus_French_News_Articles_2011_2012

    2026年1月7日 30 203 86

    数据集概述 本数据集是CONTRAST-IT多语言语料库的法语部分,包含2011-2012年来自法国《世界报》和《费加罗报》的520篇真实新闻文章,总计约30万字。文章覆盖经济、体育、国际新闻等多个主题,是构建对比语言学研究语料库的基础数据。 文件详解...
    packageimg
  • 塞尔维亚语动词派生名词注释数据库

    2025年12月20日 30 173 146

    数据集概述 本数据集包含塞尔维亚语中动词派生名词的注释数据,通过对CLASSLA-web.sr语料库中动词“očekivati(期待)”后接名词的例句进行人工标注,分析其形态、词缀、基动词及补语等特征,为研究动词派生名词的语言特性提供支持。 文件详解 文件名称: Annotated database of deverbal...
    packageimg
  • 斯洛文尼亚语形容词形态标注数据库2024

    2025年12月13日 30 131 96

    数据集概述 本数据集包含斯洛文尼亚语中六千个最常用形容词的形态标注,基于Gigafida 2.0语料库2024年3月的抽样数据提取。标注涵盖词缀、复合结构、非派生性等核心形态特征,为斯洛文尼亚语形态学研究提供结构化数据支持。 文件详解 文件名称: Annotated database of Slovenian adjectives.xlsx 文件格式:...
    packageimg
  • PMB_VID_德语动词性潜在习语表达式标注数据集

    2025年12月9日 30 85 72

    数据集概述 该数据集包含Parallel Meaning Bank中德语动词性潜在习语表达式(PIEs)的标注数据,配套Ehren等人2024年的研究。涵盖多类文件,为分析德语习语表达提供结构化标注及分析工具支持。 文件详解 文档类文件: README.md:Markdown格式,数据集说明文档,含使用方法及参考文献 Annotation...
    packageimg
  • 教学用NLP问答任务用标准训练语料数据集

    2025年4月21日 30 46 39

    教学用NLP问答任务用标准训练语料数据集 数据来源:互联网公开数据 数据概述: 该数据集原始版本由第三方作者发布,最初以 JSON 格式提供,需通过自定义数据加载器解析。本数据集由当前整理者转换为 可直接使用的 CSV 格式,以方便在监督学习任务中使用。原始数据作者信息可通过提供的链接查阅。 数据内容:...
    packageimg