找到83个数据集

标签: NLP模型训练

过滤结果
  • SemEval_2024_Task3_对话多模态情感原因分析数据集

    2026年2月6日 30 47 12

    数据集概述 本数据集为SemEval-2024 Task 3的竞赛数据,聚焦对话场景下的多模态情感原因分析,包含文本单模态(TECPE)和多模态(MECPE)两个子任务的训练与测试数据,用于提取对话中的情感-原因对,支持情感计算与自然语言处理相关研究。 文件详解 说明文档 文件名称:README.md 文件格式:MD...
    packageimg
  • 北萨米语广播字幕语料库_2021_2024

    2026年2月1日 0 46 0

    数据集概述 本数据集为北萨米语YLE Areena字幕语料库,包含2021年3月31日至2024年11月15日期间从YLE Sápmi广播收集的北萨米语字幕句子,涵盖完整句子、句子ID及来源元数据,可用于北萨米语语言研究与资源开发。 文件详解 文件名称:sami_subtitles.json 文件格式:JSON...
    packageimg
  • DWDS_Based_德语词源词典完整词条列表数据

    2026年1月31日 30 143 48

    数据集概述 本数据集为《德语词源词典》的词条列表,收录约24500个德语词汇,包含每个词汇在数字德语词典(DWDS)中的对应文章URL。该词典由沃尔夫冈·普法伊费尔领导的团队编写,涵盖词汇的年代、起源、亲属关系及词义演变等信息,是德语词源研究的重要参考资料。 文件详解 文件名称:etymwb-headwords.json 文件格式:JSON...
    packageimg
  • VeLeSpa_Spanish_西班牙语动词词库数据

    2026年1月31日 30 207 36

    数据集概述 本数据集为VeLeSpa,是半岛西班牙语的动词词库,包含六百五十五三个动词的全部六十三个音系形式词形变化范式,以及对应的词目级和词形级频率数据。数据集共包含十个文件,涵盖数据表格、说明文档、代码文件等类型。 文件详解 数据文件(CSV格式) 文件名称:VeLeSpa_cells.csv、VeLeSpa_features-...
    packageimg
  • AnCora_西班牙语多层面标注语料库数据3_0_1

    2026年1月31日 30 147 53

    数据集概述 本数据集为AnCora 3.0.1西班牙语语料库,包含约50万字的新闻文本,覆盖词元、词性、句法成分、论元结构、动词语义类、名物化隐含论元等多层面标注,支持自然语言处理相关研究与应用。 文件详解 文件名称:AnCora 3.0.1 Spanish.zip 文件格式:ZIP...
    packageimg
  • 用于流行病学事件提取的多语言数据集_LREC_2020

    2026年1月30日 30 37 6

    数据集概述 本数据集是LREC 2020论文《A Dataset for Multi-lingual Epidemiological Event Extraction》配套数据,包含多语言流行病学事件抽取语料,支持自然语言处理领域相关研究,以压缩包形式提供,仅含一个文件。 文件详解...
    packageimg
  • Crowd_Based_用户需求在线反馈众包标注结果数据

    2026年1月30日 30 187 167

    数据集概述 本数据集为Figure Eight平台开展的众包标注实验结果,来源于REFSQ 2020发表的论文研究。核心内容是对在线反馈中的用户需求进行识别与分类的标注数据,可用于需求工程领域的模型训练与验证,仅包含一个压缩文件。 文件详解 文件名称:Crowd based annotation.zip 文件格式:ZIP(压缩文件)...
    packageimg
  • FrameNet_嵌入模型软件及需求工程_语义框架嵌入技术

    2026年1月29日 0 168 145

    数据集概述 本数据集包含软件与需求工程领域的FrameNet语义框架嵌入数据,旨在识别该领域中FrameNet语义框架的语义相关性。数据通过基于上下文的方法获取,相关方法在ESEM 2018会议论文中有详细描述。 文件详解 文件名称:frame_embeddings_avg.zip 文件格式:ZIP...
    packageimg
  • ACL_cite_Based_学术句子引用价值预测标注数据集

    2026年1月29日 30 28 14

    数据集概述 本数据集为NAACL 2021论文配套的ACL-cite数据集,包含从ACL Anthology学术文献中提取的270余万句学术文本,及对应句子是否需要引用的标注标签,用于研究上下文对句子引用价值预测的作用。数据集含三个CSV文件,按文档ID划分训练、验证和测试集。 文件详解 压缩包文件 文件名称:ACL-cite.zip 文件格式:ZIP...
    packageimg
  • Chattack_Based_欺骗性与辱骂性在线对话标注数据集

    2026年1月28日 30 178 116

    数据集概述 本数据集为Chattack系统生成的标注数据集,包含经标注的欺骗性与辱骂性在线对话内容。Chattack系统是用于标记欺骗性和辱骂性在线行为的游戏化众包平台,数据集仅含一个文件。 文件详解 文件名称:chattackdatasetv1.json 文件格式:JSON...
    packageimg
  • Healthcare_Based_医疗文章专业非专业分类研究数据

    2026年1月28日 0 198 192

    数据集概述 本数据集为医疗文章专业级分类研究而收集,包含标注为“专业”和“非专业”的医疗文章数据,以及实验验证所需的源代码,可用于医疗文本分类相关研究。 文件详解 readme.md 文件格式:MD 字段映射介绍:包含研究背景说明、Python版本要求(Python...
    packageimg
  • IN_FINews_Based_印度股市多行业新闻数据集2025

    2026年1月28日 30 63 5

    数据集概述 本数据集为印度股市新闻数据集,源自印度电子新闻文章,覆盖2025年2月至8月共六个月,包含3348篇涉及汽车、银行、医疗、IT等多行业的新闻。数据集适用于自然语言处理实验及机器学习模型开发,支持文章分类等任务,包含2个数据文件。 文件详解 IN-FINews Dataset.json 文件格式:JSON...
    packageimg
  • Contexts_Retrieved_Based_NLP文本数据

    2026年1月28日 30 91 73

    数据集概述 本数据集包含通过DuckDuckGo检索的上下文文本数据,主要用于自然语言处理(NLP)相关实验。数据集共2个JSON文件,未划分训练/测试、数据/标签或原始/处理数据,所有文件直接存储于根目录,无子目录结构。 文件详解 contexts_train.json 文件格式:JSON...
    packageimg
  • Fleiss_Kappa_Based生物医学协议标注一致性评估数据

    2026年1月27日 30 76 11

    数据集概述 本数据集为生物医学自然语言处理社区提供研究资源,包含经完全标注的协议集合。每份全文由三位领域专家手动标注,共有三十四位标注者参与。数据集用于评估标注一致性,支持生物医学文本处理相关研究,仅含一个文件。 文件详解 文件名称:table - fleisskappa of protocols.xlsx 文件格式:XLSX...
    packageimg
  • NLAS_multi_Based_多语言自然语言论证方案语料库数据

    2026年1月27日 30 23 18

    数据集概述 本数据集为NLAS-multi多语言自然语言论证方案语料库,包含英文和西班牙文两种语言的论证方案,共计3810条,其中英文1893条、西班牙文1917条。数据涵盖推理关系7964组,以及同一主题下23781组论证冲突关系,总字数253516字,是研究多语言论证推理的结构化资源。 文件详解 文件名称:nlas-multi.json...
    packageimg
  • RoMEMES_Source_罗马尼亚社交媒体表情包多模态标注数据

    2026年1月27日 30 33 11

    数据集概述 本数据集为罗马尼亚语表情包数据集RoMEMES,采集自公共社交媒体平台,包含表情包的文本、图像及相关标注信息。数据经人工标注罗马尼亚语文本、图像复杂度、情感倾向、政治内容属性,文本部分通过RELATE平台自动标注词性、词元及依存句法,同时包含元数据。 文件详解 metadata.tsv 文件格式:TSV...
    packageimg
  • SemEval_2024_Task3_对话多模态情感原因分析数据集

    2026年1月27日 0 41 15

    数据集概述 本数据集为SemEval-2024 Task 3的竞赛数据,聚焦对话场景下的多模态情感原因分析,包含文本单模态(TECPE)和多模态(MECPE)两个子任务的训练与测试数据,用于提取对话中的情感-原因对,支持情感计算与自然语言处理相关研究。 文件详解 说明文档 文件名称:README.md 文件格式:MD...
    packageimg
  • BioEsCorpus_西班牙语临床报告生物医学实体关系注释语料库

    2026年1月27日 30 162 29

    数据集概述 本数据集包含对西班牙临床案例语料库(SPACCC)中18份西班牙语临床报告进行生物医学实体与语义关系标注的文件及资源。标注涵盖11类实体和8类语义关系,最终识别出324个实体(涉及10类实体)和170条关系(涉及5类关系),为生物医学文本处理研究提供结构化标注资源。 文件详解 brat_annotations目录...
    packageimg
  • Romanian_Grammar_Based罗马尼亚语法问题数据集

    2026年1月27日 30 21 16

    数据集概述 本数据集包含罗马尼亚语法相关的问题数据,由2个文件组成,涵盖说明文档和语法问题解释数据,未划分训练/测试、数据/标签或原始/处理数据集,可用于语言学习与语法研究场景。 文件详解 说明文档 文件名称:README.md 文件格式:.md 字段映射介绍:包含数据集的许可信息(MIT协议)等说明内容 数据文件...
    packageimg
  • nlp2023_toxic_german_德语新闻评论毒性标注数据集

    2026年1月27日 30 27 5

    数据集概述 本数据集包含2021年11月4日至10日期间奥地利报纸DerStandard网站的新闻评论数据,共4473条原创评论(排除评论回复),涉及522篇文章。数据包含2818条无毒评论和1655条有毒评论,类别分布相对均衡。每条评论标注了二进制毒性标签,部分评论还包含粗俗语言、目标个体、目标群体、其他目标四类细分标签及文本位置信息。 文件详解...
    packageimg