数据集 - 海数据

Promise_Based_专家标注软件需求扩展数据集

2026年1月31日 30 110 82

数据集概述本数据集是Promise_exp数据集的扩展版本，包含由专家分类的软件需求数据。数据集总计包含2个文件，无目录结构，主要文件类型为.arff和.xlsx，可用于软件需求分类相关的研究与分析。文件详解 Promise+.arff 文件格式：ARFF...

ZIP

MatBERT_Based_带隙预测专家标注数据集2023

2026年1月29日 30 210 173

数据集概述本数据集为论文“Toward Accurate Interpretable Predictions of Materials Properties within Transformer Language...

ZIP

NewsNinja_Based_媒体偏见众包标注数据集_2023

2026年1月28日 30 43 7

数据集概述本数据集是通过News Ninja游戏收集的众包标注数据，用于提升语言媒体偏见的自动检测能力。数据包含玩家标注的句子偏见标签、专家对比标注及玩家人口统计信息，所有数据匿名化处理，可支持媒体偏见检测模型训练与标注一致性分析。文件详解 ExportNewsNinja.csv 文件格式：CSV...

ZIP

Fleiss_Kappa_Based生物医学协议标注一致性评估数据

2026年1月27日 30 42 16

数据集概述本数据集为生物医学自然语言处理社区提供研究资源，包含经完全标注的协议集合。每份全文由三位领域专家手动标注，共有三十四位标注者参与。数据集用于评估标注一致性，支持生物医学文本处理相关研究，仅含一个文件。文件详解文件名称：table - fleisskappa of protocols.xlsx 文件格式：XLSX...

ZIP

NLM_Chem_Based_生物医学文献化学实体识别标注语料库与指南

2026年1月23日 30 54 3

数据集概述本数据集为NLM-Chem语料库，包含150篇PubMed全文文献，由十位NLM专家索引员双重标注，含约五千个独特化学名称标注及对应约两千个MeSH标识符，用于支持化学实体识别工具的开发与评估，解决现有工具在全文中性能较低的问题，挖掘文献中更详细的化学信息。文件详解 NLM-Chem-corpus.zip 文件格式：ZIP...

ZIP

MAVIS_Based_西班牙语疫苗疾病推文情感分析数据集2015_2018

2026年1月20日 30 96 93

数据集概述本数据集包含2015-2018年西班牙语疫苗与疾病相关推文及情感分析结果，涉及脑膜炎球菌病、流感等疾病及对应疫苗。数据涵盖推文内容、用户信息、关键词，以及专家人工标注（负面/非负面）、三大工具自动标注（IBM Watson、Google Cloud、Meaning Cloud）和机器学习元模型的情感分类结果，共6个文件。文件详解...

ZIP

Precision_Recall_F1_Based_自动标注与专家标注对比评估数据

2026年1月18日 30 34 22

数据集概述本数据集包含自动标注与领域专家标注对比计算得出的Precision（精确率）、Recall（召回率）和F1 score（F1值），用于评估自动标注的质量。数据集仅含一个文件，无目录层级，未划分训练测试集、数据标签集或原始处理集。文件详解文件名称：table P_R_F.xlsx 文件格式：XLSX...

ZIP

Twitter_ViralTweets_2016美国大选日虚假新闻病毒式推文数据

2026年1月15日 30 179 85

数据集概述本数据集为2016年11月8日美国大选日期间达到千次转发的病毒式推文集合，通过Twitter流API采集，覆盖特定选举相关话题标签及候选人账号，所有推文由专家标注是否包含虚假新闻（含编造、骗局、误读玩笑等类型），仅包含一个文件。文件详解文件名称：electionday_tweets.xlsx 文件格式：XLSX...

ZIP

JailFact_Bench_LLM越狱攻击与幻觉分析基准数据集_SiMLA2025Workshop

2026年1月5日 30 163 80

数据集概述本数据集是用于分析大语言模型（LLMs）越狱攻击与幻觉模式的基准数据集，包含语义对齐的越狱及事实性提示词，以及毒性变化、相似度得分、标注策略等元数据，支持LLM安全与事实一致性的评估研究。文件详解文件名称：README.md 文件格式：Markdown 字段映射介绍：包含数据集概述、开发背景、使用说明等文档内容...

ZIP

Ethereum_Smart_Contract_Vulnerability_Labeled_Dataset

2025年12月30日 30 95 25

数据集概述本数据集包含以太坊智能合约代码弱点与漏洞特征的标注数据，覆盖CVE、SWC、Stack Overflow和GitHub四个数据源。通过专家标注明确漏洞类别，支持智能合约安全研究与分析，总计包含五个文件。文件详解标注数据文件（XML格式）...

ZIP

媒体偏见标注专家数据集

2025年12月22日 30 186 9

数据集概述本数据集聚焦媒体偏见检测，通过对比众包标注与专家标注的差异，验证专家标注对提升数据质量的作用。数据包含专家标注结果、众包原始数据及标注指南，旨在为偏见检测模型提供更可靠的基准数据，解决现有偏见语料库标注一致性低的问题。文件详解专家标注文件: annotations_expert1.xlsx:...

ZIP

前列腺MRI与超声配准挑战赛数据集

2025年12月21日 30 29 10

数据集概述本数据集为前列腺MRI与超声配准挑战赛（mu-Reg challenge）专用数据，包含超百对配对的MR与TRUS图像，由具备15年以上相关经验的研究人员和临床医生精心标注，旨在解决临床实践中公开高质量配对数据稀缺、标注依赖多学科专家知识的问题，为配准算法基准测试提供支持。文件详解...

ZIP

SecReq安全需求启发式分类数据集

2025年12月16日 30 186 113

数据集概述本数据集支持安全需求启发式分类模型的训练与评估，包含专家标注的安全相关需求数据、训练测试集文件及配套评估工具，可复现安全需求识别研究结果，助力开发者弥合安全实践与开发经验的差距。文件详解该数据集包含以下文件： - 专家分类数据文件: - ePurse-combined-anon.xls:...

ZIP

MIDOG2025非典型与正常有丝分裂分类训练数据集

2025年12月15日 30 98 12

数据集概述该数据集是MIDOG 2025非典型训练集，包含MIDOG++全数据集的非典型与正常有丝分裂图像分类数据，涵盖来自7个领域的11939个有丝分裂图像，提供三位专家盲法多数投票结果，修正了CSV文件的重复和缺失条目问题。文件详解文件名称：MIDOG25_Atypical_Classification_Train_Set.csv...

ZIP

二氧化碳排放标注的黄金标准与标注数据集

2025年12月15日 30 5 3

数据集概述本数据集是用于从企业年度及可持续发展报告中提取温室气体排放数据的基准数据集，包含黄金标准数据集与标注数据集，涵盖三个阶段的标注结果，为相关研究提供标准化数据支持。文件详解数据文件：...

ZIP

基于大语言模型的非功能需求自动化优先级排序数据集

2025年12月15日 30 187 119

数据集概述本数据集围绕基于大语言模型（LLM）的非功能需求（NFRs）自动化识别与优先级排序展开，包含从开源项目源代码中提取的自动识别NFRs数据、专家手动标注数据及相关分析代码与文档，为研究软件需求工程中的NFRs反向获取方法提供支持。文件详解分析与代码文件： nfr_analysis_pipeline.ipynb：Jupyter...

ZIP

波士顿新生儿缺氧缺血性脑病脑损伤数据集第一部分_2023

2025年12月14日 30 208 67

数据集概述本数据集是首个公开的新生儿缺氧缺血性脑病（HIE）脑损伤数据集，包含一百三十三名HIE患儿的弥散MRI影像及专家标注的病灶数据。HIE病灶多为弥漫性小病灶（超半数患者病灶占脑体积不足百分之一），其分割任务比脑肿瘤等局灶性大病灶更具挑战性，旨在推动HIE及小弥散病灶MRI分割方法的发展。文件详解文件名称：Readme 文件格式：无扩展名...

ZIP

古希腊与拉丁语翻译对齐标注指南及黄金标准数据集

2025年12月14日 30 60 21

数据集概述本数据集包含古希腊文本与拉丁语学术翻译对齐的标注指南及黄金标准，涵盖100条随机选自Digital Fragmenta Historicorum Graecorum的片段，由专家手动对齐，标注者间一致性达90.5%，可用于翻译对齐任务的执行、评估及模型训练。文件详解核心文件：...

ZIP

ArtInsight画作劣化检测精确标注数据集

2025年12月13日 30 197 15

数据集概述该数据集是针对架上画作劣化检测的精确标注数据集，包含高分辨率画作图像及专家修复师标注的劣化区域，支持人工智能技术在艺术修复领域的应用，已通过Mask-RCNN等模型验证其鲁棒性。文件详解文件名称: Dataset.zip 文件格式: ZIP压缩包内部文件内容: LPL（绘画层缺失空洞）数据：...