找到574个数据集

标签: NLP

过滤结果
  • Islamophobic_Hate_Speech_Based社交媒体强弱仇恨言论检测数据2019

    2026年1月11日 0 194 80

    数据集概述 本数据集为2019年发表的“Detecting weak and strong Islamophobic hate speech on social media”研究配套数据,包含数据、代码及标注指南,共9个文件。涵盖社交媒体伊斯兰恐惧症仇恨言论的检测相关资源,可用于分析不同强度仇恨言论的特征与识别方法。 文件详解 文档文件...
    packageimg
  • Lexical_Complexity_Russian_Based多领域俄语词汇复杂度估计研究数据

    2026年1月8日 30 64 1

    数据集概述 本数据集围绕俄语多领域场景下的词汇复杂度估计研究构建,包含一份压缩文件。数据聚焦俄语词汇复杂度评估的多领域应用场景,为相关自然语言处理任务提供基础数据支持。 文件详解 压缩文件 文件名称:data.zip 文件格式:ZIP...
    packageimg
  • Salience_In_News_And_Tweets_Based_新闻与推文显著性数据集v2_0

    2026年1月7日 30 30 5

    数据集概述 本数据集为“Salience in News and Tweets”的新版本,聚焦新闻与推文内容中的显著性分析,包含一份压缩文件,可用于文本显著性相关的研究与分析。 文件详解 文件名称:Salience-In-News-And-Tweets-v2.0.zip 文件格式:ZIP...
    packageimg
  • dataset_recognition_resources_IR_ML_NLP领域数据集提及标注语料库

    2026年1月3日 30 139 82

    数据集概述 本数据集是IR/ML/NLP领域的数据集提及标注语料库,基于原始数据集重新标注而来。包含6000个相关领域句子及数据集标注,新增了源文献中开发的新数据集标注,并将复合数据集标注拆分为单独条目,以JSON格式重新打包,含标注偏移量信息。 文件详解 文件名称:ner_dataset_recognition_sentences.json...
    packageimg
  • TEI_XML_Moravian_See_Voyages_Travel_Diaries_Text_Data

    2025年12月31日 30 179 126

    数据集概述 本数据集包含六份摩拉维亚海航行日记的TEI/XML格式文件,记录了不同年份的航行文本内容,可用于历史航行记录的文本分析与研究,支持自然语言处理相关任务。 文件详解 数据文件 文件名称:1753Text.xml、1742Text.xml、1749Text.xml、1761Text.xml、1746Text.xml、1752Text.xml...
    packageimg
  • 爱尔兰民间传说与格雷戈里夫人改编文本语料库

    2025年12月23日 30 93 17

    数据集概述 该数据集包含十四篇英文爱尔兰民间传说原文及十四篇格雷戈里夫人的英文改编文本,支持原文与文学改写的比较分析,可用于研究编辑风格、改编实践及通过重述塑造爱尔兰文化遗产的过程。 文件详解 metadata.xlsx:Excel格式,可能包含语料库的元数据信息 README.txt:纯文本格式,提供数据集的基本说明和使用指引 original-...
    packageimg
  • 多语言多领域文本属性数据集

    2025年12月22日 30 202 78

    数据集概述 该数据集专为真实文档中的词级文本属性识别设计,包含1623张真实文档图像(涵盖法律通知、土地记录等多领域),覆盖8种语言,提供1117716个词级标注,标注类型包括粗体、斜体等文本属性及正常文本。 文件详解 测试集文件:MMTAD-TESTSET.zip,格式为ZIP,包含测试集数据 模型文件:TEXTAR-...
    packageimg
  • 关键词_susu_情感数据

    2025年12月20日 30 189 21

    数据集概述 本数据集围绕关键词“susu”(印尼语“牛奶”)的情感分析主题构建,包含相关的情感数据内容,以单一PDF文档形式呈现,为研究“susu”相关文本的情感倾向提供数据支持。 文件详解 文件名称: Open Data Sentimen Milk.pdf 文件格式: PDF (.pdf) 内容说明:...
    packageimg
  • 自然语言处理大型语言模型蜕变测试数据集2025

    2025年12月19日 30 22 18

    数据集概述 本数据集是ICSME 2025会议论文相关研究的配套数据,围绕自然语言处理(NLP)任务中大型语言模型(LLM)的蜕变测试展开,包含RQ1至RQ3及额外分析的实验结果、人工标注与汇总数据,所有文件以JSON格式存储,为LLM蜕变测试研究提供支撑。 文件详解 该数据集以ZIP压缩包形式组织,内部包含多个JSON文件和目录,具体说明如下: -...
    packageimg
  • 古希腊语与葡萄牙语翻译对齐标准与黄金标准数据集

    2025年12月18日 30 208 159

    数据集概述 本数据集包含古希腊语文本与葡萄牙语翻译对齐的指导标准及黄金标准数据,基于古希腊语-英语对齐指南改编,由领域专家使用Ugarit工具完成对齐,可支持相关文本对齐任务、数据集构建或自动化模型训练。 文件详解 文件名称:grc.txt 文件格式:.txt 内容说明:原始古希腊语文本文件 文件名称:por.txt 文件格式:.txt...
    packageimg
  • BigGrams半监督HTML信息提取系统数据集

    2025年12月15日 30 25 5

    数据集概述 该数据集为BigGrams半监督HTML信息提取系统相关的参考数据集,包含从真实网站抓取的网页数据,以及对应网站的人工标注参考实例数据,用于支持半监督信息提取方法的研究与验证。 文件详解 数据集包含一个ZIP压缩文件,解压后包含两个主要文件夹,具体说明如下: - 压缩文件: bigrams-reference-data-...
    packageimg
  • Umsuka英语_祖鲁语平行语料库

    2025年12月8日 30 162 92

    数据集概述 该数据集是开源高质量英语-祖鲁语平行语料库,涵盖南非本土及国际英语语境,由专业译者翻译构建。包含10000组平行句对(各5000组双向翻译),并从每组中分离1000组作为评估集,祖鲁语评估集经双重翻译以计算人类水平BLEU分数。 文件详解 训练数据文件(CSV格式): zu-en.training.csv:祖鲁语-...
    packageimg
  • 用户反馈分类研究系统性文献综述原始研究参考文献

    2025年12月11日 30 117 54

    数据集概述 本数据集是一份原始研究参考文献列表,源于对用户反馈分类技术与类别的系统性文献综述,为NLP4RE 2019研讨会两篇相关论文提供参考,收录于REFSQ'19联合会议CEUR研讨会论文集。 文件详解 文件名称: Bibliography of Primary Studies.pdf 文件格式: PDF(.pdf) 文件内容:...
    packageimg
  • NLP_LLM_Based_葡萄牙语软件工程岗位数据提取对比分析完整数据

    2025年12月10日 30 62 4

    数据集概述 本数据集围绕葡萄牙语软件工程招聘信息的数据提取任务,对比分析自然语言处理(NLP)与大语言模型(LLM)的应用效果,包含招聘信息数据文件、岗位列表及分析报告类文件。 文件详解 Vagas para Comparação.json:JSON格式文件,包含用于对比分析的葡萄牙语软件工程招聘信息数据。 Lista de cargos...
    packageimg
  • 图皮语依存树库数据集

    2025年12月9日 30 57 7

    数据集概述 本数据集是图皮语依存树库(TuDeT),包含一个压缩文件,提供图皮语语言资源,用于自然语言处理(NLP)相关研究,为图皮语的句法分析提供数据支持。 文件详解 文件名称: tupian-language-resources/tudet-v0.4.zip 文件格式: ZIP(压缩文件) 内容说明:...
    packageimg
  • GLOVE_全球词向量表示数据集

    2025年12月8日 30 142 12

    数据集概述 本数据集围绕“GLOVE: GLOBAL VECTORS FOR WORD REPRESENTATION”主题,包含一份PDF文档,核心内容与全球词向量表示相关,为词向量技术研究提供基础资料支持。 文件详解 文件名称: Abdulatif Meyliev Rakhmatillayevich.pdf 文件格式: PDF 内容说明:...
    packageimg
  • BioContextAI_Based_简单MCP评估文本任务数据集

    2025年12月8日 30 34 20

    数据集概述 本数据集为BioContextAI simple MCP评估相关的压缩文件,未提供具体内容描述,仅包含一个归档文件,可用于相关领域的评估任务。 文件详解 文件名称: BioContextAI-simple-mcp-evaluation.zip 文件格式: ZIP(.zip) 内容说明:...
    packageimg
  • 路透社21578基准语料库

    2025年12月8日 30 160 67

    数据集概述 该数据集为路透社21578基准语料库,是一个用于文本分类等任务的经典基准数据集,以压缩文件形式存储,未提供训练/测试、数据/标签等拆分信息。 文件详解 文件名称: RCV1.zip 文件格式: ZIP压缩包(.zip) 内容说明: 该压缩包包含路透社21578基准语料库的相关数据,无可用内容预览,未检测到命名模式或拆分结构。 适用场景...
    packageimg
  • 俄语词序百科条目2014

    2025年12月7日 30 201 31

    数据集概述 本数据集为2014年发表于《大俄罗斯百科全书》第28卷的“Порядок слов(词序)”条目。内容涵盖俄语词序分析的基础框架,区分词序的限制性与非限制性方面,为俄语语法及词序研究提供权威参考。 文件详解 文件名称: WORD ORDER _ENCYCL 2014.pdf 文件格式: PDF (.pdf) 文件内容:...
    packageimg
  • 学术_小说与歌曲语言数据集

    2025年12月5日 30 150 38

    数据集概述 该数据集为研究项目“学术、小说与歌曲中的语言”的数据管理计划(DMP)。核心内容围绕学术写作、小说文本与歌曲歌词中的动词使用差异展开,对比不同体裁及文本内的动词多样性,分析各体裁高频动词特征。 文件详解 文件名称:DMP_Language in academics fiction and song.pdf 文件格式:PDF (.pdf)...
    packageimg