ODDPub_Numbat_生物医学文献开放数据集检测工作流完整数据

数据集概述

本数据集包含生物医学文献开放数据集检测工作流相关数据,涵盖2020-2021年文献的开放数据自动检测与人工验证结果、评分者间信度计算数据、数据字典及不同格式的提取表单,用于分析生物医学文献中开放数据集的判定结果与评估逻辑。

文件详解

  • 开放数据评估数据集
  • 文件名称:charite_open_data_2020.csv、charite_open_data_2021.csv
  • 文件格式:CSV
  • 字段映射介绍:包含文献DOI、开放数据二元判定(open_data_assessment/assessment)、数据引用(reference_to_data)、数据访问权限(data_access)等字段;NULL值通过n_a、restricted、open_data_reuse等字段补充判定为非开放类别
  • 评分者间信度数据
  • 文件名称:IRR_2_raters_article_level.csv、IRR_3_raters_dataset_level.csv
  • 文件格式:CSV
  • 字段映射介绍:记录100篇文献的2名评分者信度数据,及其中20篇文献的3名评分者信度数据,包含文献级与数据集级评估结果
  • 数据字典
  • 文件名称:data_dictionary_open_data.csv
  • 文件格式:CSV
  • 字段映射介绍:说明所有数据文件的变量名称、描述、取值范围及类型
  • 提取表单
  • 文件名称:2023-08-17-Openness (en) 2021.json、2023-08-17-Openness (en) 2021.md、2023-08-17-Openness (en) 2022.json、2023-08-17-Openness (en) 2022.md
  • 文件格式:JSON、Markdown
  • 字段映射介绍:2021-2022年开放数据筛查使用的提取表单,记录评估问题与选项

数据来源

Workflow for detecting biomedical articles with openly available underlying datasets - Datasets and extraction forms

适用场景

  • 生物医学开放数据趋势分析:通过年度数据集评估生物医学文献中开放数据集的占比变化
  • 开放数据判定逻辑研究:分析二元判定字段与补充字段的关联,探索非开放类别的细分场景
  • 文献筛查工具验证:对比ODDPub自动检测与Numbat人工验证的结果一致性
  • 评分者间信度方法研究:基于100篇文献的信度数据,优化开放数据人工评估的流程设计
  • 生物医学文献数据标准制定:参考数据字典与提取表单,规范开放数据评估的字段与取值
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 2.43 MiB
最后更新 2026年1月23日
创建于 2026年1月23日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。