OMG_Based_混合模态基因组语言建模数据集附加文件

数据集概述

本数据集是论文“The OMG dataset: An Open MetaGenomic corpus for mixed-modality genomic language modeling”的附加文件,包含3个独立文件,覆盖TSV、CSV、JSON三种格式,记录了基因组学相关的项目、分类单元、文献引用等信息,为混合模态基因组语言建模研究提供补充数据支持。

文件详解

  • OMG_additional_file_1.json
  • 文件格式:JSON
  • 字段映射介绍:未提供具体预览内容,推测包含结构化的基因组学相关元数据
  • OMG_additional_file_2.csv
  • 文件格式:CSV
  • 字段映射介绍:包含project_id(项目ID)、assembly_accession(组装登录号)、doi(文献DOI)三个字段,记录基因组项目与文献引用的关联信息
  • OMG_additional_file_3.tsv
  • 文件格式:TSV
  • 字段映射介绍:包含Taxon_oid(分类单元OID)、JGI Proposal(JGI项目编号)、DOI Publication(文献DOI)、PMID Publication(文献PMID)、DOI(文献DOI)五个字段,记录分类单元与文献引用的关联信息

数据来源

论文“The OMG dataset: An Open MetaGenomic corpus for mixed-modality genomic language modeling”

适用场景

  • 混合模态基因组语言建模研究:为基因组学领域的多模态语言模型训练提供补充文本数据
  • 基因组文献关联分析:通过文件中的DOI、PMID等字段,分析基因组项目与学术文献的引用关系
  • 微生物分类单元研究:利用Taxon_oid字段关联分类单元信息,支持微生物基因组学研究
  • 基因组项目元数据整合:整合不同格式文件中的项目ID、组装登录号等信息,构建基因组项目元数据库
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 33.76 MiB
最后更新 2026年1月30日
创建于 2026年1月30日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。