找到55个数据集

标签: NLP任务

过滤结果
  • DisinfoAppear_Based_在线虚假信息链接分类任务数据集_V1

    2026年1月20日   

    数据集概述 本数据集针对在线虚假信息传播的新型链接分类任务构建,聚焦于事实核查文章中出现的链接,将其按文本语境分为虚假信息出现、支持证据、其他三类。包含训练集、测试集、说明文档及代码文件,可用于虚假信息传播相关的链接分类研究,共5个文件。 文件详解 数据文件 文件名称:GS_train.json、GS_test.json 文件格式:JSON...
    packageimg
  • Documentation_defects_Based_文档缺陷分类研究数据

    2026年1月20日   

    数据集概述 本数据集包含101个根据分类体系进行分类的文档缺陷记录,用于研究文档缺陷的分类特征与分布情况。数据集仅包含一个文件,未进行训练/测试、数据/标签或原始/处理数据的拆分,无目录结构,文件类型单一。 文件详解 文件名称:silva_techdebt2023_documentationdebt.xlsx 文件格式:XLSX...
    packageimg
  • BhashaHMPV_Based印度区域语言HMPV多语言新闻与事实核查数据集

    2026年1月20日   

    数据集概述 本数据集包含印度区域语言的HMPV相关多语言新闻和事实核查文章,覆盖孟加拉语、英语、古吉拉特语等11种语言。通过Splinter框架采集Google新闻文章,利用Google Fact-Check API获取事实核查文章,经预处理和词干提取后整理为结构化文件,可用于多语言医疗文本分析研究。 文件详解...
    packageimg
  • Webis_ArgRank_17_Based_英文论证相关性研究基准数据集_2017

    2026年1月18日   

    数据集概述 本数据集是用于研究论证相关性的英文基准数据集,包含32个排名、超过3万个论证单元的真实论证图,以及可复现排名实验的源代码。数据集以压缩包形式提供,无目录层级划分,可支持论证相关性领域的模型训练与评估。 文件详解 文件名称:webis-argrank-17.zip 文件格式:ZIP...
    packageimg
  • MEDDOPROF_Test_Set_西班牙语临床病例职业信息检测共享任务测试数据

    2026年1月15日   

    数据集概述 本数据集是MEDDOPROF共享任务的测试集,用于西班牙语临床病例中职业、就业状态的自动检测。该任务包含三个子任务:职业实体识别(MEDDOPROF-NER)、职业指代分类(MEDDOPROF-CLASS)和职业标准化(MEDDOPROF-NORM),可支撑医疗、社会服务、制药等多领域的文本处理需求,数据集包含一个压缩文件。 文件详解...
    packageimg
  • EvaCRC_Replication_Package_代码审查评论评估研究复现数据2023

    2026年1月12日   

    数据集概述 本数据集是ESEC/FSE 2023论文《EvaCRC: Evaluating Code Review Comments》的复现包,包含6个文件,覆盖概念模型构建、实验评估等研究内容,支持论文三个研究问题的复现验证,为代码审查评论评估的相关研究提供可复现的原始数据与材料。 文件详解 文档文件 文件名称:README.md 文件格式:MD...
    packageimg
  • Luxembourgish_word_embedding_Based_RTL_lu用户评论训练模型数据

    2026年1月2日   

    数据集概述 本数据集是基于卢森堡媒体平台RTL.lu的用户评论训练的卢森堡语词嵌入模型,包含2008年12月至2018年12月期间约54.4万条卢森堡语文本数据,为卢森堡语自然语言处理任务提供语义向量支持。 文件详解 文件名称:Luxembourgish word embedding_RTL user comments.zip 文件格式:ZIP...
    packageimg
  • 日本虚假新闻数据集

    2025年12月24日   

    数据集概述 该数据集为日本虚假新闻相关数据,包含一个压缩文件,未提供具体内容预览,可通过项目页面获取更多细节。 文件详解 文件名称: J-fakenews_v1.zip 文件格式: ZIP (.zip) 文件内容: 未提供具体内容预览,为压缩格式的数据集文件 适用场景 虚假新闻检测研究: 可用于训练和测试针对日语文本的虚假新闻识别模型...
    packageimg
  • 政治辩论中的多模态谬误分类数据集

    2025年12月18日   

    数据集概述 本数据集为政治辩论中的多模态谬误分类研究提供补充文件,核心内容围绕政治辩论场景下的谬误分类任务展开,以压缩包形式存储相关数据,为多模态分析领域的研究提供支持。 文件详解 文件名称: MMUSED-fallacy.zip 文件格式: ZIP压缩包(.zip) 文件内容:...
    packageimg
  • 句法同义词的语言学特征认知方面数据集

    2025年12月24日   

    数据集概述 该数据集聚焦于句法同义词的语言学特征,从认知视角展开研究,以单篇PDF文档形式呈现相关研究内容,为探索句法同义词的认知语言学属性提供资料支持。 文件详解 文件名称: Сайидирахимова Насиба Сайидмахамадовна.pdf 文件格式: PDF (.pdf) 文件内容:...
    packageimg
  • 乌兹别克语停用词列表数据集

    2025年12月23日   

    数据集概述 本数据集包含通过三种自动方法从乌兹别克语"学校语料库"生成的停用词列表,涵盖单字词、双字词及带搭配的双字词停用词,为乌兹别克语自然语言处理任务提供基础资源。 文件详解 压缩包文件: uzbek_stopwords.zip: ZIP格式压缩包,包含以下核心文件: stopwords_unigrams.txt:...
    packageimg
  • 西班牙临床过敏笔记语料库

    2025年12月23日   

    数据集概述 该数据集是首个西班牙语临床过敏笔记语料库,包含西班牙阿尔科尔孔基金会大学医院过敏科及急诊科197名患者的828篇临床文本,涉及病历模板多样,含拼写错误、缩写等非正式临床书写特征,为西班牙语过敏领域NLP研究提供数据支持。 文件详解 文件名称: HUFA corpus annotation guidelines.pdf 文件格式: PDF...
    packageimg
  • BiodivTab语义表格标注任务基准数据集

    2025年12月22日   

    数据集概述 本数据集是针对语义表格标注任务的基准数据集BiodivTab,以表格形式组织生物多样性相关数据,为评估语义表格标注算法性能提供标准测试资源。 文件详解 文件名称: BiodivTab_DBpedia.zip:压缩文件格式,内容未提供预览,推测包含与DBpedia关联的生物多样性表格数据。 文件名称:...
    packageimg
  • KPAAMCAM_IDP_Lower_Fungom_Biya_Based_500名词词表完整数据

    2025年12月21日   

    数据集概述 该数据集是一份包含500个名词的Biya Mungbam语言词表,Biya Mungbam是喀麦隆西北部Menchum区Lower Fungom地区使用的语言。词表基于两名男女发音人的数据,记录了声调、前缀、词根及名词短语等方面的个体差异。 文件详解 文件名称:KPAAMCAM-IDP_NTs_BIYA 500 NOUNS...
    packageimg
  • Twitter气候变化标签与关键词数据集

    2025年12月20日   

    数据集概述 该数据集收集了Twitter平台上与气候变化相关的标签和关键词,分为支持与意识类、批判与怀疑类、两党气候类三大类别,覆盖带标签和无标签关键词,经清洗后确保数据准确性,为社交媒体话语分析提供结构化数据支持。 文件详解 文件名称:Climate Change Hashtags and Keywords on Twitter.pdf...
    packageimg
  • 新冠演讲小型语料库2020

    2025年12月19日   

    数据集概述 该数据集为新冠演讲小型语料库,包含伊曼纽尔·马克龙、佩德罗·桑切斯和安格拉·默克尔三位领导人的十五篇演讲,每位五篇。十四篇演讲时间为2020年3月至6月,每人均有一篇为同年10月或11月,内容和意图具有相似性。 文件详解 演讲文件(共15个): 文件格式:DOCX(.docx)...
    packageimg
  • 在线购物术语词汇语义分类数据集

    2025年12月14日   

    数据集概述 该数据集包含1份关于在线购物术语词汇语义分类的PDF文档,核心围绕在线购物相关术语的词汇语义分类展开,为理解电商领域术语体系提供参考资料。 文件详解 文件名称: To'xtasinova Zarina.pdf 文件格式: PDF 内容说明: 包含在线购物术语词汇语义分类的研究内容,具体字段或章节需查阅文档内容 适用场景 电商术语体系研究...
    packageimg
  • 印尼人权紧急状态推特标签推文数据集2020

    2025年12月14日   

    数据集概述 本数据集是通过Twint工具采集的、包含2020年12月18日至19日期间,带#IndonesiaHumanRightsSOS标签的推特数据,共约十万六千九百零三条记录,涵盖用户ID、用户名、推文内容等基础信息,还附带词云、高频词等分析样例,为研究该标签相关讨论提供支持。 文件详解 原始数据文件:...
    packageimg
  • 东京都立大学在线学习系统日语FAQ数据集

    2025年12月13日   

    数据集概述 该数据集包含东京都立大学在线学习系统的FAQ数据及其分类,用于训练专用聊天机器人。数据基于2015年4月至2018年7月师生使用系统时的真实问答记录,提供日语原版及英文翻译版数据,支持学术研究。 文件详解 该数据集包含两类文件,具体说明如下: - FAQ数据文件(CSV格式): - Answer2Category.csv:答案分类对应关系...
    packageimg
  • COVID接触追踪应用用户评论挖掘项目实证数据集

    2025年12月13日   

    数据集概述 该数据集为COVID接触追踪应用用户评论挖掘项目的实证数据,包含应用URL信息、评论分析的原始及处理数据、评论趋势与情感可视化图表等,支持对相关应用用户反馈的分析研究。 文件详解 文本文件: apps country URLs.txt:TXT格式,记录不同国家COVID接触追踪应用的名称及对应Google Play、App...
    packageimg