-
循环水养殖系统鱼类实例分割数据集
数据集概述 本数据集遵循COCO标注标准,包含北欧两家商业循环水养殖系统(RAS)农场的88张鱼类图像及实例分割标注。标注采用多边形分割掩码,经人工质量评估,支持鱼类个体识别与计数研究。 文件详解 文档文件: README.md:Markdown格式,包含数据集简介、COCO标注标准说明、数据来源与处理流程等背景信息。 图像文件:...
-
高强度运动心电图数据集
数据集概述 该数据集包含20名受试者在心肺运动测试不同阶段的心电图(ECG)信号片段及人工标注的R波峰值位置,涵盖运动前、中、后不同强度阶段,用于分析高强度运动中R波检测算法的性能。 文件详解 该数据集为ZIP压缩包,解压后包含以下核心目录和文件: - 目录 ecg_segments/: -...
-
ChatGPT检测自然语言需求不一致性初步评估补充材料
数据集概述 本数据集为《ChatGPT检测自然语言需求不一致性初步评估》的补充材料,包含实验相关的原始数据与人工标注结果,涵盖ChatGPT回答标注、人工分析标注及需求与真实标签对,为该研究提供完整的数据支撑。 文件详解 文件名称: ResultsCameraReady.pdf 文件格式: PDF (.pdf) 文件内容: 包含三类核心信息...
-
鼠海豚检测评估数据集
数据集概述 该数据集包含支持相关研究论文的原始数据和处理脚本,用于评估自动检测系统在不同海洋声景中长期监测鼠海豚的性能。因宽带声学录音规模较大未存储,需联系第一作者获取。 文件详解 CNN_Output_Files.zip:ZIP格式压缩文件,可能包含卷积神经网络(CNN)方法的检测输出结果...
-
黄瓜病害与新鲜度分类数据集
数据集概述 该数据集包含人工标注的黄瓜叶片、果实病害图像及新鲜样本图像,用于支持植物病害检测与分类研究。基于Kaggle平台的“Cucumber Disease Recognition Dataset”,通过Label Studio进行标准化标注,涵盖7个分类类别,适用于深度学习模型的训练与评估。 文件详解 压缩文件...
-
乌德穆尔特语空间格变化研究数据集
数据集概述 本数据集包含乌德穆尔特语空间格(源格:离格、出格;目标格:入格、终格)变化的人工标注数据及配套R分析代码,用于研究地标属性、动词形式等变量对格选择的影响,支持相关语言现象的定量分析。 文件详解 该数据集包含数据文件、R代码文件及文档,具体如下: - 数据文件(CSV格式):共6个,用于分析空间格选择的影响因素 -...
-
SoMeSci_科学文献中的软件提及数据集
数据集概述 该数据集是通过人工标注构建的科学文献中软件提及的黄金标准知识图谱,包含原始黄金标准数据及所有软件相关引用的标注内容,为科学文献中软件提及的研究提供标准化数据支持。 文件详解 Formal_Citation.zip:压缩文件,包含所有软件相关引用的标注数据 SoMeSci.zip:压缩文件,包含原始SoMeSci黄金标准数据 数据来源...
-
波兰新冠疫情相关媒体发布数据集2020
数据集概述 本数据集收集了二零二零年一月十五日至七月三十一日(八月六日)期间,波兰互联网上新冠疫情相关的多平台媒体数据,包括人工标注的文章、推文、视频及评论,以及提取的代表性内容和社会实证研究数据,为研究波兰疫情期间的社会行为提供支持。 文件详解 人工标注内容文件:...
-
COVID_19相关生物医学自然语言处理词典与标注语料库工具包
数据集概述 本数据集为生物医学自然语言处理任务提供工具包,包含COVID-19相关的英文词典、标注语料库及代码工作流。词典覆盖疾病、病毒、变异株等术语,用于从CORD-19数据集提取信息,构建大型银标准语料库,辅以人工标注的金标准语料库,支持命名实体识别等文本分析任务。 文件详解...
-
领域聚类标注Ecore元模型数据集2017
数据集概述 本数据集包含2017年4月从GitHub挖掘并人工标注的五百五十五个Ecore元模型,涵盖文献目录、会议管理、缺陷/问题跟踪器等九个领域,通过关键词和正则表达式搜索构建,为领域聚类研究提供标注数据支持。 文件详解 文件名称: manualDomains.zip 文件格式: ZIP (.zip) 文件内容:...
-
SocialDisNER西班牙语推文疾病提及标注数据集
数据集概述 该数据集为SocialDisNER语料库,包含人工标注的西班牙语推文疾病提及金标准数据(训练集5000条、验证集2500条)及自动标注的大规模银标准数据(85000余条推文),覆盖疾病、药物等多类实体,用于研究社交媒体健康内容中的疾病提及识别。 文件详解 主数据压缩包: SocialDisNER_Data.zip 包含training-...
-
学习宽松解析与类型推断间接监督数据集
数据集概述 该数据集围绕“学习宽松解析与类型推断的间接监督”主题构建,包含论文相关的验证集数据、AST生成与代码纠错代码文件、类型修复代码文件,以及FragFix和BlockFix相关数据集,为相关研究提供实验数据与实现资源支持。 文件详解 验证集数据文件:Validation...
-
手动标注的RNA相关科学文献实验数据集
数据集概述 本数据集包含从RNA相关科学文献中提取的一百个段落,所有内容均已根据LinkML模板完成实体与关系的人工标注,覆盖基因、蛋白质、RNA、化学物质、变异体(SNPs)、GO术语及疾病等关联信息,为RNA知识图谱研究提供基础数据。 文件详解 annotations.json:...
-
Hugging_Face模型到软件工程活动编目复制包
数据集概述 该数据集是论文《Cataloguing Hugging Face Models to Software Engineering Activities: Automation and Findings》的复制包,包含复制研究所需的脚本、原始数据集、人工验证标注及最终整理数据集等相关内容。 文件详解 文件名称:...
-
构建日志分析数据集LogChunks
数据集概述 该数据集包含从80个GitHub仓库收集的797条Travis CI构建日志,覆盖29种开发语言。日志按语言和仓库分类存储,部分日志含人工标注的构建失败原因片段,并标注关键词及结构分类,可用于构建日志分析研究。 文件详解 该数据集主要包含一个压缩文件,内部结构如下: - 文件名称: LogChunks.zip - 文件格式: ZIP...
-
MESINESP2西班牙语生物医学语义索引标注语料库
数据集概述 该数据集为MESINESP2任务生成的人工标注语料库,包含科学文献、临床试验、专利摘要三类西班牙语生物医学文档,由领域专家使用DeCS受控词汇标注,旨在推动非英语生物医学内容语义索引工具的开发。 文件详解 子任务语料压缩包:...
-
代码异味数据集_DACOS
数据集概述 该数据集提供三类代码异味(多面抽象、复杂方法、长参数列表)的标注代码片段,包含人工标注的主观片段数据集及更大规模的明确良性或异味的代码片段集,通过SQL文件和源码压缩包形式存储。 文件详解...
-
JUnit测试唯一性自动化识别数据集
数据集概述 该数据集为"JUnit测试唯一性自动化识别"研究提供支撑,包含实验数据、评估元数据、R处理脚本、人工与研究者标注的评估数据等11个文件,覆盖测试名称唯一性检查、重命名数据及评估标准定义等内容。 文件详解 文档类文件: _README.pdf:PDF格式,提供数据集的基本说明 Definitions of TP_FP_TN_FN for...
-
Reddit_Based_实体链接数据集_多标注文本语义分析完整数据
数据集概述 该数据集是基于社交媒体平台Reddit创建的实体链接数据集,包含六百一十九条帖子及一千二百四十三条对应评论,由三名人工标注者对文本分组进行标注,记录了提及-实体对及不同标注者间的一致性结果,含黄金、白银、青铜三种标注类型,总计一万一千一百零三条标注数据。 文件详解 文件名称: reddit_el.zip 文件格式: ZIP压缩包(.zip)...
-
大语言模型代码翻译引入缺陷研究数据集2024
数据集概述 该数据集为ICSE 2024收录论文《Lost in Translation: A Study of Bugs Introduced by Large Language Models while Translating Code》的配套实证研究 artifact...



