-
BIOMAT_MONER语料库训练与验证集
数据集概述 该数据集为BIOMAT-MONER语料库的训练(750篇文档)与验证(100篇文档)集,用于生物材料领域科学文献中制造对象相关实体的命名实体识别(NER)模型开发,聚焦生物材料实验或应用中的制造对象及属性标注。 文件详解 文件名称: BIOMAT-MONER_Train_Set.zip 文件格式: .zip(压缩包) 内容说明:...
-
Tough_Tables实体链接评估数据集v3_0
数据集概述 该数据集是用于评估表格数据实体链接方法的基准数据集,支持CEA(单元格实体标注)和CTA(列类型标注)任务。v3.0版本适配DBpedia 2016-10和Wikidata 20220521知识图谱,按验证集和测试集划分,兼容SemTab 2019格式。 文件详解 文件名称: ToughTables-WD_v3.zip 文件格式:...
-
心脏离子通道小分子活性综合数据集
数据集概述 该数据集是一个面向药物发现领域的综合数据库,涵盖hERG、Nav1.5和Cav1.2三种心脏离子通道的小分子活性数据。数据以压缩文件形式组织,每个离子通道目标包含开发集(含训练/验证子集)及两个不同结构相似度阈值的外部测试集,为离子通道毒性预测模型的构建与评估提供标准化数据支持。 文件详解 压缩文件: dataset.rar:...
-
SocialDisNER西班牙语推文疾病提及标注数据集
数据集概述 该数据集为SocialDisNER语料库,包含人工标注的西班牙语推文疾病提及金标准数据(训练集5000条、验证集2500条)及自动标注的大规模银标准数据(85000余条推文),覆盖疾病、药物等多类实体,用于研究社交媒体健康内容中的疾病提及识别。 文件详解 主数据压缩包: SocialDisNER_Data.zip 包含training-...
-
学习宽松解析与类型推断间接监督数据集
数据集概述 该数据集围绕“学习宽松解析与类型推断的间接监督”主题构建,包含论文相关的验证集数据、AST生成与代码纠错代码文件、类型修复代码文件,以及FragFix和BlockFix相关数据集,为相关研究提供实验数据与实现资源支持。 文件详解 验证集数据文件:Validation...
-
膀胱内镜组织分类数据集
数据集概述 该数据集包含一千七百五十四张膀胱内镜图像,来自二十三例经尿道膀胱肿瘤切除术患者,图像类型包括白光成像和窄带成像,按组织病理学分析标注为低级别癌、高级别癌、无肿瘤病变、非可疑组织四类,用于多域内镜图像的半监督膀胱组织分类研究。 文件详解 文件名称:baldder_tissue_classification.zip 文件格式:ZIP压缩包...
-
S390_Microclean高速钢纳米压痕数据集
数据集概述 该数据集包含S390 Microclean™高速钢经不同热处理后的纳米压痕实验数据,支持机器学习模型训练与验证。数据通过TS77 Select Bruker-Hysitron纳米压痕仪采集,对应《Explainable machine learning and feature engineering applied to...
-
糖尿病黄斑水肿视觉问答数据集
数据集概述 该数据集是基于IDRiD和eOphta数据集构建的医学视觉问答(VQA)数据集,包含健康与病变眼底图像,针对每张图像生成预定义问题,部分区域相关问题附带位置掩码,可用于研究VQA模型的一致性。 文件详解 文件名称: dme_vqa.zip 文件格式: ZIP压缩包 内容说明:...
-
杨梅成熟度多阶段检测与分类数据集
数据集概述 该数据集包含杨梅成熟度检测与分类两部分数据,检测数据集提供PascalVOC和YOLO格式的标注文件,分类数据集按红、绿、黄成熟度阶段分组存储图像。所有图像由OAK-D S2相机拍摄,分辨率为1456x1092像素,为杨梅成熟度视觉分析提供支持。 文件详解...
-
开放词汇属性检测数据集
数据集概述 该数据集是基于nuScenes数据集构建的属性检测数据集,补充了空间关系、运动状态及物体间交互等详细属性标注,用于全面支持属性检测的训练与测试,可助力复杂场景动态感知系统的开发与评估。 文件详解 根目录文件: README.md:Markdown格式的说明文档,介绍数据集基本信息 OVAD_full目录(完整数据集):...
-
PAN22作者分析_风格变化检测数据集
数据集概述 该数据集为PAN 2022风格变化检测任务的专用数据,包含三个子数据集,分别对应基础、进阶和真实场景三类子任务,覆盖段落及句子层级的风格变化定位需求,支持模型训练与评估。 文件详解 文件名称: pan22.zip 文件格式: ZIP压缩包 内容说明:...
-
数据2D卷积神经网络实验解释数据集
数据集概述 该数据集包含运行2D卷积神经网络(2DCNNs)实验解释所需的全部数据设置,由7个不同类型的文件组成,覆盖模型权重、数据集、代码脚本、预处理文件及示例图像,为复现和理解2DCNNs实验结果提供基础数据支持。 文件详解 该数据集包含7个独立文件,具体说明如下: - 模型权重文件: - weights.h5:...
-
癫痫发作与非发作脑电信号节律谱图图像数据集
数据集概述 该数据集是基于CHB-MIT脑电头皮数据库生成的预处理图像数据集,包含发作(ictal)和非发作状态下的脑电信号节律谱图。数据集共600帧图像,对应25分钟发作时间,分为训练、测试和验证文件夹,图像格式为PNG,可用于机器学习和深度学习模型训练。 文件详解 文件名称: EEG seizure and non-seizure image...
-
语义增强链接预测数据集DB100k_Yago3_10_NELL_995
数据集概述 该数据集包含DB100k+、Yago3-10+、NELL-995+及变体NELL995+_10_30_10等语义增强链接预测数据集,通过实体类型推断对标准数据集进行扩展,并提供数据集创建、分析代码及掩蔽算法,支持生成含不同比例谓词信息的变体数据集。 文件详解 核心数据集文件:...
-
斑马鱼顶视鱼缸运动数据集2023
数据集概述 该数据集包含2023年1月至5月通过HP w500摄像头从顶视角度采集的斑马鱼在35x24x21cm鱼缸中的运动追踪数据,旨在研究镜像鱼对追踪效果的影响,涵盖基础、装饰、波纹三种环境下的图像数据。 文件详解 文件名称: dataset.zip 文件格式: ZIP压缩包(.zip) 压缩包内容:...
-
Webis标题党破解语料库2022
数据集概述 该数据集包含从Facebook、Reddit和Twitter爬取的五千条标题党帖子及其对应的破解内容,按训练、验证、测试集划分。破解内容分为短语型、段落型和非连续多文本型三类,曾用于SemEval-2023标题党破解任务。 文件详解 文件名称: webis-clickbait-22.zip 文件格式: ZIP压缩包 内部文件(按预设划分):...
-
海胆目标检测与分类数据集
数据集概述 本数据集用于海胆目标检测模型的训练、验证与评估,包含九千八百七十二张图像及四万四千余条标注,覆盖新西兰与澳大利亚周边海域的三种海胆物种,提供原始与预处理数据文件、模型训练配置及图像下载脚本。 文件详解 数据文件: Complete_urchin_dataset.csv:...
-
IUST_PDF_Based_多场景PDF数据处理完整数据集
数据集概述 该数据集为IUST-PDF语料库,包含六千一百四十一个不同大小和内容的完整PDF文件,以及从中提取的五十万七千二百九十九个PDF数据对象和十五万一千一百三十二个PDF流。还附带每个PDF文件在测试MuPDF时的代码覆盖率信息,数据对象分为三类,适用于PDF阅读器测试和机器学习任务。 文件详解 压缩文件集合:...
-
TBGA基因疾病关联生物医学关系抽取数据集
数据集概述 该数据集为TBGA,是用于基因-疾病关联(GDA)抽取的大规模半自动标注数据集,包含训练、验证、测试集文本文件及关系名称与ID映射的JSON文件,每条记录对应从句子中提取的单个GDA,以JSON对象结构存储相关信息。 文件详解 数据集压缩包: TBGA.zip,ZIP格式,包含TBGA文件夹及内部所有文件 训练集文本文件:...
-
Duke_PAM_Based_杜克大学光声显微镜PAM图像完整数据集
数据集概述 该数据集是杜克大学收集的光声显微镜(PAM)图像数据,主要包含小鼠脑微血管、耳部及肿瘤的图像。原始3D数据通过最大振幅投影转换为2D,分为clean、patches、raw三个子集,分别对应预处理后、128×128像素块及未预处理的图像,支持生物医学成像相关研究。 文件详解 压缩文件集合(共6个.zip格式文件):...



