数据集概述
本数据集为手稿《Identifying genomic data use with the Data Citation Explorer》的源数据,包含用于验证Data Citation Explorer的手动评估样本、引用报告及源文件压缩包。数据支持分析JAMO记录与出版物的关联、元数据扩展及处理审计路径,适用于基因组数据引用研究,含3个核心文件。
文件详解
- DCE_manual_eval_sample.xlsx
- 文件格式:XLSX
- 字段映射介绍:含两个工作表,分别对应PubMed/PubMed Central和Dimensions搜索返回的出版物;每行记录JAMO记录与关联出版物的配对,列描述见文件内部。
- DCE_citation_report.csv
- 文件格式:CSV
- 字段映射介绍:含jamo_id(唯一JAMO记录ID)、sample_group(评估样本分层)、citation_count(引用数量)、citations(逗号分隔的PubMed ID)、sampled(是否纳入初始评估样本)、notes(排除原因)、unprocessed(是否因异常字段未处理)等字段。
- DCE_source_files.zip
- 文件格式:ZIP
- 内容说明:每个JAMO记录对应3个文件——JAMO_ID_source.yaml(JAMO记录提取字段)、JAMO_ID_expand.yaml(扩展元数据)、JAMO_ID_audit.json(审计路径DAG)。
适用场景
- 基因组数据引用分析: 利用DCE_citation_report.csv分析JAMO记录与PubMed出版物的关联模式。
- 数据引用工具验证: 通过DCE_manual_eval_sample.xlsx评估Data Citation Explorer的搜索结果准确性。
- 元数据扩展研究: 基于DCE_source_files.zip中的yaml文件探究元数据补充对引用识别的影响。
- 数据处理审计: 分析JAMO_ID_audit.json中的审计路径,优化数据处理流程。