数据集 - 海数据

玄武岩弹性模量机器学习预测数据集

2026年2月15日 30 24 0

数据集概述本数据集为论文《Prediction of elastic modulus of basaltic rocks using machine learning methods》配套数据，主要用于玄武岩弹性模量的机器学习预测研究。数据集包含1个文件，无目录结构，未划分训练/测试集、数据/标签或原始/处理数据，文件类型单一为XLSX格式。...

ZIP

生物多样性领域的语义表注释基准测试

2026年2月15日 30 43 15

数据集概述本数据集是生物多样性领域的语义表注释基准数据集，包含水平关系表和实体表两种类型表格，用于表格数据与知识图谱匹配任务。以Wikidata为目标知识图谱提供基准真值数据，支持主题检测、单元格实体注释等语义表注释任务，当前版本不含测试基准真值数据。文件详解文件名称：tbiodiv2-splits - without test gt.zip...

ZIP

协助邮件记录评估的SVM分类结果数据

2026年2月15日 30 58 29

数据集概述本数据集展示了训练支持向量机（SVM）分类器以复制企业邮件业务价值识别决策过程的实验结果。实验基于两个企业邮箱的846封邮件，对比了包含与不包含附件文本的SVM模型表现，同时与垃圾邮件/非垃圾邮件分类模型、基于Enron邮件随机子集的模型进行比较。数据集包含1个Excel文件。文件详解文件名称：Accuracy-Precision-...

ZIP

Declare_Based_在线Declare发现人工合成数据集

2026年2月13日 30 193 3

数据集概述本数据集包含两个用于在线Declare发现的人工合成事件流数据集，分别模拟周期性突然漂移和渐变漂移场景。基于保险索赔流程的不同变体模型生成原始日志，通过ProM的Stream Package合并转换为事件流，总计包含596,089个事件，用于流程挖掘中概念漂移检测的研究与验证。文件详解文件名称：2015-TSC.zip 文件格式：ZIP...

ZIP

ScanBank_Based_扫描电子学位论文图表提取基准数据集

2026年1月28日 30 109 100

数据集概述本数据集是用于从扫描电子学位论文中提取图表的基准数据集，包含标注文件、配置文件、代码文件等16个文件，支持图表提取任务的模型训练、验证与测试，为学术文档处理领域的图表检测研究提供标准化数据支撑。文件详解标注相关文件...

ZIP

食品领域语义表注释基准测试集

2026年2月12日 30 6 2

数据集概述本数据集是面向食品领域的表格数据到知识图谱匹配基准数据集tFood，包含水平关系表和实体表两种类型表格，支持基于Wikidata的主题检测、单元格实体标注、列类型标注、列属性标注四类语义表标注任务，用于SemTab 2023第一轮竞赛，测试集真值暂未公开。文件详解文件名称：tfood_wiith_test_gt.zip 文件格式：ZIP...

ZIP

监督式匹配与实体解析的清洗数据集

2026年2月12日 30 171 64

数据集概述本数据集包含13个已确立的基准数据集和5个新基准数据集，用于评估基于机器学习（ML）和深度学习（DL）的实体匹配算法。数据集涵盖结构化和文本类型，涉及学术、产品、企业等领域的实体对，支持多种匹配算法的测试与比较。文件详解压缩文件（Compressed Files）...

ZIP

高层综合中动态与静态调度相结合的基准数据集

2026年2月9日 30 184 179

数据集概述本数据集是用于高级综合中动态与静态调度结合研究的基准数据集，包含1个实验相关文件，无目录层级划分，主要文件类型为Excel格式，未提供训练/测试、数据/标签或原始/处理数据的划分，无自述文件或内容预览。文件详解文件名称：experiments.xlsx 文件格式：XLSX...

ZIP

Subj_Based_文本主观性二分类数据集

2026年2月9日 30 32 24

数据集概述本数据集为Subj主观性分类数据集，包含一万份文档，是用于二分类任务的数据集，任务为将文档（即句子）分为主观或客观两类。数据集包含文本内容、分类标签及交叉验证划分文件，可用于自然语言处理领域的主观性分析研究。文件详解 texts.txt 文件格式：TXT 字段映射介绍：文档集合，每行对应一份文本数据 score.txt 文件格式：TXT...

ZIP

AGREE_Based_古希腊语义模型评估基准数据集

2026年1月31日 30 82 66

数据集概述本数据集为AGREE基准，用于评估古希腊语义模型，包含两项专家任务的原始数据、最终基准数据集及问卷原始答案。数据基于专家对古希腊词汇语义相关性的判断构建，支持语义模型性能验证，总计包含5个文件。文件详解 1_agree_task1.json（JSON格式）...

ZIP

SciRAG_QA_Based_多领域科学封闭问题问答基准数据集

2026年2月9日 30 181 142

数据集概述本数据集是用于科学问答（QA）系统基准测试的多领域封闭问题数据集，覆盖10个研究领域下的34个主题，包含108条人工标注的问答对，每条数据标注了答案类型、难度等级及带来源论文链接的黄金参考，可用于验证检索增强生成（RAG）系统在科学领域的性能。文件详解 metadata.csv 文件格式：CSV...

ZIP

触及痛点20_论点提取_争议性问题数据集

2026年2月2日 30 204 55

数据集概述本数据集为Touché 2020争议问题论点检索任务的数据，包含6个文件，涵盖任务主题、检索结果运行文件及相关性判断文件，支持自然语言处理领域中争议问题论点检索相关研究，文件类型以.zip和.qrels为主。文件详解主题文件文件名称：topics-task-1.zip 文件格式：ZIP 字段映射介绍：包含Touché...

ZIP

Muzzle_Cow_牛鼻纹图像分类数据集

2026年2月2日 30 43 1

数据集概述本数据集为牛鼻纹（Muzzle Cow）图像分类数据集，包含训练集和测试集两个文件夹。训练集含30类共150张牛鼻纹图像，测试集含30类共60张牛鼻纹图像，用于牛个体识别相关的图像分析任务。文件详解训练集文件文件名称：train.zip 文件格式：ZIP 字段映射介绍：压缩包内包含30类牛的鼻纹图像，总计150张，用于模型训练...

ZIP

HYDRALAB_模型冰块抗压强度测量数据

2026年2月1日 30 103 83

数据集概述本数据集包含HSVA大型冰槽中开展的模型冰力学性能测量的详细报告及数据，属于HYDRALAB+项目下JRA 2-COMPLEX的基准数据集交付成果。核心内容为不同目标抗弯强度、长径比条件下的模型冰抗压强度测量结果，同时记录了杨氏模量、抗弯强度、盐度、密度等参数，数据以ASCII格式的TXT文件存储。文件详解...

ZIP

H5N1_Based_病毒废水检测基准数据集

2026年2月1日 30 160 20

数据集概述本数据集为病毒检测方法提供基准，将模拟的H5N1流感序列读数与真实废水宏基因组数据结合，模拟新型H5N1毒株在城市废水中可检测水平的场景。包含总读数约七十一万条，其中H5N1读数占比约百分之零点一六，废水读数占比约百分之九十九点八四，可用于评估病毒检测方法的性能。文件详解数据文件...

ZIP

GTSRB_Based_德国交通标志识别基准数据集

2026年1月31日 30 101 86

数据集概述本数据集为德国交通标志识别基准（GTSRB），是2011年国际神经网络联合会议（IJCNN）的单图像多类别分类挑战数据集。包含超40个类别、总计超5万张图像，是大型、真实场景的交通标志图像数据库，用于交通标志识别任务的模型训练与评估。文件详解文件名称：data.zip 文件格式：ZIP...

ZIP

IAN_Based_转录组学数据集评估_性能测试数据

2026年1月31日 30 167 11

数据集概述本数据集包含用于评估IAN性能的两个已发表RNA-Seq转录组学数据集，分别来自葡萄膜炎患者与健康对照的差异表达基因（DEG）研究，以及贝赫切特病（BD）患者与健康对照的原始RNA-Seq数据。数据经标准化整理，用于支持生物信息学工具性能验证，共包含4个文件。文件详解文件名称：uveitis-...

ZIP

D_I_TASSER_Paper_Based基准数据集

2026年1月31日 30 203 176

数据集概述本数据集是D-I-TASSER论文中使用的基准数据集，仅包含一个压缩文件，无目录层级、训练测试划分、数据标签划分及原始/处理数据划分，文件类型单一为压缩包格式。文件详解文件名称：benchmarkdataset.zip 文件格式：ZIP 字段映射介绍：压缩包内具体内容未提供预览，无README文件，无法获取内部字段或文件结构信息。...

ZIP

YouTube_印度两大政党评论情感标注数据集2019

2026年1月31日 30 126 51

数据集概述本数据集包含印度两大政党（印度国民大会党、印度人民党）YouTube视频下的用户评论及人工标注的情感标签，分为正面（标签1）和负面（标签0）两类。2019年3月捐赠，共含3950条评论，其中印度人民党数据集1952条、印度国民大会党数据集1998条，两类评论数量均等，用于政治舆情相关的二元分类任务。文件详解 readme.docx...

ZIP

CoderEval_Based_代码生成基准评估数据集

2026年1月31日 30 18 17

数据集概述本数据集为CoderEval代码生成基准数据集，包含四十二个文件，无目录结构。核心内容为用于评估生成式预训练模型代码生成性能的基准数据，涵盖JSON格式结果文件、JSONL格式原始/处理数据、Python脚本、说明文档及压缩包，支持超越独立函数的实用代码生成能力评估。文件详解数据文件（.json）...

ZIP

找到210个数据集

注册成功！