数据集概述
本数据集是论文“The OMG dataset: An Open MetaGenomic corpus for mixed-modality genomic language modeling”的附加文件,包含3个独立文件,覆盖TSV、CSV、JSON三种格式,记录了基因组学相关的项目、分类单元、文献引用等信息,为混合模态基因组语言建模研究提供补充数据支持。
文件详解
- OMG_additional_file_1.json
- 文件格式:JSON
- 字段映射介绍:未提供具体预览内容,推测包含结构化的基因组学相关元数据
- OMG_additional_file_2.csv
- 文件格式:CSV
- 字段映射介绍:包含project_id(项目ID)、assembly_accession(组装登录号)、doi(文献DOI)三个字段,记录基因组项目与文献引用的关联信息
- OMG_additional_file_3.tsv
- 文件格式:TSV
- 字段映射介绍:包含Taxon_oid(分类单元OID)、JGI Proposal(JGI项目编号)、DOI Publication(文献DOI)、PMID Publication(文献PMID)、DOI(文献DOI)五个字段,记录分类单元与文献引用的关联信息
数据来源
论文“The OMG dataset: An Open MetaGenomic corpus for mixed-modality genomic language modeling”
适用场景
- 混合模态基因组语言建模研究:为基因组学领域的多模态语言模型训练提供补充文本数据
- 基因组文献关联分析:通过文件中的DOI、PMID等字段,分析基因组项目与学术文献的引用关系
- 微生物分类单元研究:利用Taxon_oid字段关联分类单元信息,支持微生物基因组学研究
- 基因组项目元数据整合:整合不同格式文件中的项目ID、组装登录号等信息,构建基因组项目元数据库