找到611个数据集

标签: NLP

过滤结果
  • 阿姆哈拉语监督式主题分类语料库

    2026年2月12日 30 84 12

    数据集概述 本数据集为阿姆哈拉语主题分类监督语料库,由埃塞俄比亚记者专业标注,文件名为Supervised_Topic_Classifier_Corpus.xml。数据集包含一份XML格式文件,未划分训练/测试集、数据/标签集或原始/处理集,可用于自然语言处理领域的阿姆哈拉语文本分类研究,需进一步优化完善。 文件详解...
    packageimg
  • Subj_Based_文本主观性二分类数据集

    2026年2月9日 30 111 79

    数据集概述 本数据集为Subj主观性分类数据集,包含一万份文档,是用于二分类任务的数据集,任务为将文档(即句子)分为主观或客观两类。数据集包含文本内容、分类标签及交叉验证划分文件,可用于自然语言处理领域的主观性分析研究。 文件详解 texts.txt 文件格式:TXT 字段映射介绍:文档集合,每行对应一份文本数据 score.txt 文件格式:TXT...
    packageimg
  • 荷兰传记门户_生物信息_关系抽取_标注数据集

    2026年2月1日 30 23 19

    数据集概述 本数据集为荷兰传记文本的人工标注关系抽取数据集,包含14类生物信息相关关系,如出生时间、居住地、亲属关系等。数据源自荷兰传记门户,包含测试集数据及说明文档,共2个文件,用于自然语言处理领域的关系抽取任务研究。 文件详解 README.md 文件格式:.md...
    packageimg
  • Ge_ez_Based_文本抽取式摘要任务数据集

    2026年2月1日 30 10 5

    数据集概述 本数据集为Ge'ez语言文本的抽取式摘要任务专用数据,包含一份Ge'ez语言的文本文件,主要用于自然语言处理领域的文本摘要算法训练与测试,支持对Ge'ez文本内容的结构化分析需求。 文件详解 文件名称:Geez_Text_120.xlsx 文件格式:XLSX...
    packageimg
  • Urdu_Based乌尔都语攻击性内容数据集及实现代码

    2026年1月30日 30 13 12

    数据集概述 本数据集包含乌尔都语攻击性语言相关的Python代码和多种特征文件,用于复现研究论文结果并扩展相关发现。数据集共含5个文件,无目录层级,主要分为数据文件和代码文件两类,支持乌尔都语文本的攻击性内容分析任务。 文件详解 数据文件(.xlsx格式,共3个) dataset-unigram.xlsx:乌尔都语攻击性内容的单字词特征数据...
    packageimg
  • 用于流行病学事件提取的多语言数据集_LREC_2020

    2026年1月30日 30 102 75

    数据集概述 本数据集是LREC 2020论文《A Dataset for Multi-lingual Epidemiological Event Extraction》配套数据,包含多语言流行病学事件抽取语料,支持自然语言处理领域相关研究,以压缩包形式提供,仅含一个文件。 文件详解...
    packageimg
  • TuReV_Corpus_突尼斯革命在线新闻报道语料库

    2026年1月30日 30 210 122

    数据集概述 本数据集为TuReV语料库,收录了关于突尼斯革命的在线新闻报道文本,是用于自然语言处理(NLP)研究的单文件语料库资源,可支持对突尼斯革命相关新闻内容的文本分析任务。 文件详解 文件名称:corpus TuReV.docx 文件格式:DOCX...
    packageimg
  • AD_NLP_Based阿尔茨海默病临床表型提取研究数据

    2026年1月30日 30 203 81

    数据集概述 本数据集包含基于自然语言处理(NLP)技术从临床文本中提取阿尔茨海默病(AD)相关临床表型的研究数据,涉及医疗合并症、生物标志物、神经行为测试分数等表型类型。数据支持评估NLP提取管道的性能,可为AD风险预测模型开发提供结构化表型信息,共包含2个文件。 文件详解 README.md 文件格式:MD...
    packageimg
  • 情感分析协作Github开源软件项目协作关系情感分析数据集

    2026年1月30日 30 173 91

    数据集概述 本数据集为开源软件项目协作关系情感分析研究提供配套数据及脚本,包含与开源项目协作关系情感分析相关的内容,可用于NLP领域中开源协作场景的情感分析研究,帮助理解开源社区协作中的情感倾向。 文件详解 压缩文件 文件名称:sentiment-analysis-collaboration-github.zip 文件格式:ZIP...
    packageimg
  • SLR_NLP_Based传统模型方法技术结构化文献综述数据

    2026年1月29日 30 30 1

    数据集概述 本数据集为自然语言处理(NLP)领域传统模型、方法和技术的结构化文献综述(SLR)基础数据,包含SLR使用的搜索字符串、应用筛选条件及综述结果,以及用于定量分析的补充URL链接,共2个文件,支持SLR结果的可复现性。 文件详解 文件名称:slr_traditionalmodelsNLP.xlsx 文件格式:XLSX...
    packageimg
  • Webis_SMC_12_用户搜索任务标注语料库_2012版

    2026年1月29日 30 106 12

    数据集概述 本数据集为Webis Search Mission Corpus 2012(Webis-SMC-12),包含127名用户的8840次搜索引擎交互记录。由两名人工标注员将交互划分为2881个逻辑会话和1378个任务,初始分歧通过讨论达成共识。数据集仅含1个压缩文件,无目录结构。 文件详解 文件名称:corpus-webis-...
    packageimg
  • NBC2_4_Based_历史新闻文章主题建模与分类标注数据

    2026年1月29日 30 194 24

    数据集概述 本数据集包含通过主题建模和朴素贝叶斯分类器(NBC2+4)对历史新闻文章进行的标注结果,按文章标题组织。内容涵盖瑞士新闻文章的主题标签及分布、第4轮NBC分类中欧洲反现代概念的前100个显著词,为新闻文本的主题分析提供结构化标注数据。 文件详解 文件1:Bunout-newspaper article-annotations-...
    packageimg
  • Corpus_of_protocols_实验协议语料库数据集

    2026年1月29日 30 46 8

    数据集概述 本数据集为用于学术分析的实验协议语料库,包含经分析的实验协议相关数据,旨在为学术研究提供结构化的协议文本资源。数据集仅含一个文件,无目录层级划分,未区分训练/测试、数据/标签或原始/处理数据,专注于提供完整的实验协议语料内容。 文件详解 文件名称:corpus of protocols.xlsx 文件格式:XLSX...
    packageimg
  • Minecraft_QA_Based_游戏问答指令训练数据集

    2026年1月29日 30 53 46

    数据集概述 本数据集为训练大型语言模型(LLMs)处理Minecraft相关问题设计,包含超过39万条指令条目,通过LLM辅助方法生成。数据集提供高质量、多样化的问答对,分为短答案、长答案、布尔答案和普通答案四类,适用于模型训练。 文件详解 文件名称:minecraft_instruction_dataset.json 文件格式:JSON...
    packageimg
  • The_outdated_open_data_数据集及实验结果

    2026年1月29日 30 100 40

    数据集概述 本数据集包含过时开放数据相关的数据集及实验结果,涉及自然语言处理、人工智能、深度学习等技术关键词,通过压缩包和文本文件的形式存储,为开放数据研究提供基础数据支撑。 文件详解 文件名称:CodeData.zip 文件格式:ZIP 字段映射介绍:压缩包文件,包含与过时开放数据相关的数据集及实验结果的代码或数据内容...
    packageimg
  • Deepseek_Source_Deepseek情感分析数据集

    2026年1月29日 30 89 77

    数据集概述 本数据集为Deepseek情感分析数据集,包含2个文件,无目录结构,无训练/测试、数据/标签或原始/处理数据的拆分。文件类型包括.xlsx和.csv,主要涉及文本情感分析相关数据,可用于自然语言处理领域的情感分析研究。 文件详解 Combined_Deepseek.xlsx 文件格式:.xlsx...
    packageimg
  • AOP_Based_人类健康不良结局通路基因与生物系统注释数据

    2026年1月29日 30 78 13

    数据集概述 本数据集为人类健康相关不良结局通路(AOPs)提供全面的分子注释,包含基因与关键事件(KEs)的关联、名称与ID映射、基因集注释、生物系统注释等结构化信息,支持将AOP框架嵌入分子数据解读,助力生物医学研究中基于AOP的新方法开发与应用。 文件详解 Genes_to_KEs.txt 文件格式:TXT...
    packageimg
  • Contexts_Retrieved_Based_NLP文本数据

    2026年1月28日 30 20 2

    数据集概述 本数据集包含通过DuckDuckGo检索的上下文文本数据,主要用于自然语言处理(NLP)相关实验。数据集共2个JSON文件,未划分训练/测试、数据/标签或原始/处理数据,所有文件直接存储于根目录,无子目录结构。 文件详解 contexts_train.json 文件格式:JSON...
    packageimg
  • rafamestre_M_Arg_Based多模态论证挖掘数据集v1_0_0

    2026年1月20日 30 93 8

    数据集概述 本数据集为M-Arg多模态论证挖掘数据集,包含多模态论证挖掘相关数据内容,未提供具体描述信息。数据以压缩包形式存储,无训练/测试、数据/标签、原始/处理等数据划分,总计包含1个文件。 文件详解 压缩包文件 文件名称:rafamestre/m-arg_multimodal-argumentation-dataset-v1.0.0.zip...
    packageimg
  • Wikidata_Based_新闻标题到知识图谱事件类映射评估数据集

    2026年1月25日 30 68 56

    数据集概述 本数据集是基于Wikidata构建的新闻标题到事件类映射语料库,用于支持新闻标题与知识图谱中事件类的关联评估框架研究。数据集包含1个JSON文件,无训练测试、数据标签或原始处理数据的拆分,为新闻事件分类映射任务提供基础数据支持。 文件详解 文件名称:news_event_identication_dataset.json 文件格式:JSON...
    packageimg