数据集 - 海数据

CLAO_全唐诗宋词自动标注补充数据

2026年2月15日 30 32 16

数据集概述本数据集包含全唐诗和全宋词的完整诗歌内容，通过Community annotator工具进行自动标注，是论文“Leveraging graph algorithms to speed up the annotation of large rhymed corpora”的补充材料，可用于古典文学文本的标注研究与分析。文件详解...

ZIP

Papers_With_Code_Based_软件提及语料库数据

2026年2月12日 0 71 4

数据集概述本数据集是从Papers With Code平台下载的出版物列表中构建的软件提及语料库，通过筛选包含GitHub仓库元数据的论文文本生成。数据集仅包含一个压缩文件，未划分训练/测试集、数据/标签集或原始/处理集，文件类型单一。文件详解文件名称：papers_with_code_corpus.zip 文件格式：ZIP（压缩包）...

北萨米语广播字幕语料库_2021_2024

2026年2月1日 30 166 79

数据集概述本数据集为北萨米语YLE Areena字幕语料库，包含2021年3月31日至2024年11月15日期间从YLE Sápmi广播收集的北萨米语字幕句子，涵盖完整句子、句子ID及来源元数据，可用于北萨米语语言研究与资源开发。文件详解文件名称：sami_subtitles.json 文件格式：JSON...

ZIP

WebKb_4UNI_Based_网页分类数据集

2026年2月9日 0 171 88

数据集概述本数据集由卡内基梅隆大学文本学习小组收集，包含来自康奈尔、德克萨斯、华盛顿、威斯康星4所大学计算机科学系的网页及其他大学的杂项网页，总计8282页。网页被分为学生、教职员工、工作人员、部门、课程、项目和其他7个类别，用于文本分类任务。文件详解文本文件文件名称：texts.txt、texts_2.txt 文件格式：TXT...

FrameNet_嵌入模型软件及需求工程_语义框架嵌入技术

2026年1月29日 30 153 137

数据集概述本数据集包含软件与需求工程领域的FrameNet语义框架嵌入数据，旨在识别该领域中FrameNet语义框架的语义相关性。数据通过基于上下文的方法获取，相关方法在ESEM 2018会议论文中有详细描述。文件详解文件名称：frame_embeddings_avg.zip 文件格式：ZIP...

ZIP

Healthcare_Based_医疗文章专业非专业分类研究数据

2026年1月28日 30 61 40

数据集概述本数据集为医疗文章专业级分类研究而收集，包含标注为“专业”和“非专业”的医疗文章数据，以及实验验证所需的源代码，可用于医疗文本分类相关研究。文件详解 readme.md 文件格式：MD 字段映射介绍：包含研究背景说明、Python版本要求（Python...

ZIP

SemEval_2024_Task3_对话多模态情感原因分析数据集

2026年2月6日 30 204 132

数据集概述本数据集为SemEval-2024 Task 3的竞赛数据，聚焦对话场景下的多模态情感原因分析，包含文本单模态（TECPE）和多模态（MECPE）两个子任务的训练与测试数据，用于提取对话中的情感-原因对，支持情感计算与自然语言处理相关研究。文件详解说明文档文件名称：README.md 文件格式：MD...

ZIP

DWDS_Based_德语词源词典完整词条列表数据

2026年1月31日 30 160 72

数据集概述本数据集为《德语词源词典》的词条列表，收录约24500个德语词汇，包含每个词汇在数字德语词典（DWDS）中的对应文章URL。该词典由沃尔夫冈·普法伊费尔领导的团队编写，涵盖词汇的年代、起源、亲属关系及词义演变等信息，是德语词源研究的重要参考资料。文件详解文件名称：etymwb-headwords.json 文件格式：JSON...

ZIP

VeLeSpa_Spanish_西班牙语动词词库数据

2026年1月31日 30 23 6

数据集概述本数据集为VeLeSpa，是半岛西班牙语的动词词库，包含六百五十五三个动词的全部六十三个音系形式词形变化范式，以及对应的词目级和词形级频率数据。数据集共包含十个文件，涵盖数据表格、说明文档、代码文件等类型。文件详解数据文件（CSV格式）文件名称：VeLeSpa_cells.csv、VeLeSpa_features-...

ZIP

AnCora_西班牙语多层面标注语料库数据3_0_1

2026年1月31日 30 30 14

数据集概述本数据集为AnCora 3.0.1西班牙语语料库，包含约50万字的新闻文本，覆盖词元、词性、句法成分、论元结构、动词语义类、名物化隐含论元等多层面标注，支持自然语言处理相关研究与应用。文件详解文件名称：AnCora 3.0.1 Spanish.zip 文件格式：ZIP...

ZIP

用于流行病学事件提取的多语言数据集_LREC_2020

2026年1月30日 30 158 11

数据集概述本数据集是LREC 2020论文《A Dataset for Multi-lingual Epidemiological Event Extraction》配套数据，包含多语言流行病学事件抽取语料，支持自然语言处理领域相关研究，以压缩包形式提供，仅含一个文件。文件详解...

ZIP

Crowd_Based_用户需求在线反馈众包标注结果数据

2026年1月30日 30 142 66

数据集概述本数据集为Figure Eight平台开展的众包标注实验结果，来源于REFSQ 2020发表的论文研究。核心内容是对在线反馈中的用户需求进行识别与分类的标注数据，可用于需求工程领域的模型训练与验证，仅包含一个压缩文件。文件详解文件名称：Crowd based annotation.zip 文件格式：ZIP（压缩文件）...

ZIP

ACL_cite_Based_学术句子引用价值预测标注数据集

2026年1月29日 30 10 1

数据集概述本数据集为NAACL 2021论文配套的ACL-cite数据集，包含从ACL Anthology学术文献中提取的270余万句学术文本，及对应句子是否需要引用的标注标签，用于研究上下文对句子引用价值预测的作用。数据集含三个CSV文件，按文档ID划分训练、验证和测试集。文件详解压缩包文件文件名称：ACL-cite.zip 文件格式：ZIP...

ZIP

Chattack_Based_欺骗性与辱骂性在线对话标注数据集

2026年1月28日 30 33 18

数据集概述本数据集为Chattack系统生成的标注数据集，包含经标注的欺骗性与辱骂性在线对话内容。Chattack系统是用于标记欺骗性和辱骂性在线行为的游戏化众包平台，数据集仅含一个文件。文件详解文件名称：chattackdatasetv1.json 文件格式：JSON...

ZIP

IN_FINews_Based_印度股市多行业新闻数据集2025

2026年1月28日 30 114 53

数据集概述本数据集为印度股市新闻数据集，源自印度电子新闻文章，覆盖2025年2月至8月共六个月，包含3348篇涉及汽车、银行、医疗、IT等多行业的新闻。数据集适用于自然语言处理实验及机器学习模型开发，支持文章分类等任务，包含2个数据文件。文件详解 IN-FINews Dataset.json 文件格式：JSON...

ZIP

Contexts_Retrieved_Based_NLP文本数据

2026年1月28日 30 119 6

数据集概述本数据集包含通过DuckDuckGo检索的上下文文本数据，主要用于自然语言处理（NLP）相关实验。数据集共2个JSON文件，未划分训练/测试、数据/标签或原始/处理数据，所有文件直接存储于根目录，无子目录结构。文件详解 contexts_train.json 文件格式：JSON...

ZIP

Fleiss_Kappa_Based生物医学协议标注一致性评估数据

2026年1月27日 30 185 56

数据集概述本数据集为生物医学自然语言处理社区提供研究资源，包含经完全标注的协议集合。每份全文由三位领域专家手动标注，共有三十四位标注者参与。数据集用于评估标注一致性，支持生物医学文本处理相关研究，仅含一个文件。文件详解文件名称：table - fleisskappa of protocols.xlsx 文件格式：XLSX...

ZIP

NLAS_multi_Based_多语言自然语言论证方案语料库数据

2026年1月27日 30 175 130

数据集概述本数据集为NLAS-multi多语言自然语言论证方案语料库，包含英文和西班牙文两种语言的论证方案，共计3810条，其中英文1893条、西班牙文1917条。数据涵盖推理关系7964组，以及同一主题下23781组论证冲突关系，总字数253516字，是研究多语言论证推理的结构化资源。文件详解文件名称：nlas-multi.json...

ZIP

RoMEMES_Source_罗马尼亚社交媒体表情包多模态标注数据

2026年1月27日 30 189 179

数据集概述本数据集为罗马尼亚语表情包数据集RoMEMES，采集自公共社交媒体平台，包含表情包的文本、图像及相关标注信息。数据经人工标注罗马尼亚语文本、图像复杂度、情感倾向、政治内容属性，文本部分通过RELATE平台自动标注词性、词元及依存句法，同时包含元数据。文件详解 metadata.tsv 文件格式：TSV...

ZIP

SemEval_2024_Task3_对话多模态情感原因分析数据集

2026年1月27日 0 195 36

数据集概述本数据集为SemEval-2024 Task 3的竞赛数据，聚焦对话场景下的多模态情感原因分析，包含文本单模态（TECPE）和多模态（MECPE）两个子任务的训练与测试数据，用于提取对话中的情感-原因对，支持情感计算与自然语言处理相关研究。文件详解说明文档文件名称：README.md 文件格式：MD...

找到86个数据集

注册成功！