Data_Citation_Explorer_Source_手稿源数据_基因组数据使用识别数据

数据集概述

本数据集为手稿《Identifying genomic data use with the Data Citation Explorer》的源数据,包含用于验证Data Citation Explorer的手动评估样本、引用报告及源文件压缩包。数据支持分析JAMO记录与出版物的关联、元数据扩展及处理审计路径,适用于基因组数据引用研究,含3个核心文件。

文件详解

  • DCE_manual_eval_sample.xlsx
  • 文件格式:XLSX
  • 字段映射介绍:含两个工作表,分别对应PubMed/PubMed Central和Dimensions搜索返回的出版物;每行记录JAMO记录与关联出版物的配对,列描述见文件内部。
  • DCE_citation_report.csv
  • 文件格式:CSV
  • 字段映射介绍:含jamo_id(唯一JAMO记录ID)、sample_group(评估样本分层)、citation_count(引用数量)、citations(逗号分隔的PubMed ID)、sampled(是否纳入初始评估样本)、notes(排除原因)、unprocessed(是否因异常字段未处理)等字段。
  • DCE_source_files.zip
  • 文件格式:ZIP
  • 内容说明:每个JAMO记录对应3个文件——JAMO_ID_source.yaml(JAMO记录提取字段)、JAMO_ID_expand.yaml(扩展元数据)、JAMO_ID_audit.json(审计路径DAG)。

适用场景

  • 基因组数据引用分析: 利用DCE_citation_report.csv分析JAMO记录与PubMed出版物的关联模式。
  • 数据引用工具验证: 通过DCE_manual_eval_sample.xlsx评估Data Citation Explorer的搜索结果准确性。
  • 元数据扩展研究: 基于DCE_source_files.zip中的yaml文件探究元数据补充对引用识别的影响。
  • 数据处理审计: 分析JAMO_ID_audit.json中的审计路径,优化数据处理流程。
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 465.64 MiB
最后更新 2026年1月11日
创建于 2026年1月11日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。