-
YouTube_Abusive_Comments_数据集
2026年1月30日 30 182 14
数据集概述 本数据集收集了来自YouTube热门视频(如音乐视频、《小猪佩奇》等动画片)的辱骂评论及特定词汇,包含性辱骂评论等内容,为社交媒体评论内容分析提供基础数据支持。 文件详解 文件名称:Sexual Abusive Comments by Roma3 & INNO.xlsx 文件格式:XLSX...
-
Biblical_Quotations_GT_圣经引文标注研究数据集
2026年1月25日 30 185 110
数据集概述 本数据集为“Aggadic文献中复杂引文模式自动检测”项目的研究数据,包含标注的圣经引文及相关模式数据,由海法大学团队构建。总计56个文件,含TSV格式的标注数据、JSON格式的关系层与标签集定义文件,用于支持宗教文本中圣经引文的自动识别与分析研究。 文件详解 TSV数据文件(50个)...
-
neurodegenerative_NLP_based神经退行性疾病临床轨迹识别研究数据
2026年1月13日 30 9 2
数据集概述 本数据集与“Identification of clinical disease trajectories in neurodegenerative disorders with natural language...
-
CONTRAST_IT_Corpus_French_News_Articles_2011_2012
2026年1月7日 30 203 86
数据集概述 本数据集是CONTRAST-IT多语言语料库的法语部分,包含2011-2012年来自法国《世界报》和《费加罗报》的520篇真实新闻文章,总计约30万字。文章覆盖经济、体育、国际新闻等多个主题,是构建对比语言学研究语料库的基础数据。 文件详解...
-
塞尔维亚语动词派生名词注释数据库
2025年12月20日 30 173 146
数据集概述 本数据集包含塞尔维亚语中动词派生名词的注释数据,通过对CLASSLA-web.sr语料库中动词“očekivati(期待)”后接名词的例句进行人工标注,分析其形态、词缀、基动词及补语等特征,为研究动词派生名词的语言特性提供支持。 文件详解 文件名称: Annotated database of deverbal...
-
斯洛文尼亚语形容词形态标注数据库2024
2025年12月13日 30 131 96
数据集概述 本数据集包含斯洛文尼亚语中六千个最常用形容词的形态标注,基于Gigafida 2.0语料库2024年3月的抽样数据提取。标注涵盖词缀、复合结构、非派生性等核心形态特征,为斯洛文尼亚语形态学研究提供结构化数据支持。 文件详解 文件名称: Annotated database of Slovenian adjectives.xlsx 文件格式:...
-
PMB_VID_德语动词性潜在习语表达式标注数据集
2025年12月9日 30 85 72
数据集概述 该数据集包含Parallel Meaning Bank中德语动词性潜在习语表达式(PIEs)的标注数据,配套Ehren等人2024年的研究。涵盖多类文件,为分析德语习语表达提供结构化标注及分析工具支持。 文件详解 文档类文件: README.md:Markdown格式,数据集说明文档,含使用方法及参考文献 Annotation...
-
教学用NLP问答任务用标准训练语料数据集
2025年4月21日 30 46 39
教学用NLP问答任务用标准训练语料数据集 数据来源:互联网公开数据 数据概述: 该数据集原始版本由第三方作者发布,最初以 JSON 格式提供,需通过自定义数据加载器解析。本数据集由当前整理者转换为 可直接使用的 CSV 格式,以方便在监督学习任务中使用。原始数据作者信息可通过提供的链接查阅。 数据内容:...



