数据集

OMG_Based_混合模态基因组语言建模数据集附加文件

数据集概述

本数据集是论文“The OMG dataset: An Open MetaGenomic corpus for mixed-modality genomic language modeling”的附加文件，包含3个独立文件，覆盖TSV、CSV、JSON三种格式，记录了基因组学相关的项目、分类单元、文献引用等信息，为混合模态基因组语言建模研究提供补充数据支持。

文件详解

OMG_additional_file_1.json
文件格式：JSON
字段映射介绍：未提供具体预览内容，推测包含结构化的基因组学相关元数据
OMG_additional_file_2.csv
文件格式：CSV
字段映射介绍：包含project_id（项目ID）、assembly_accession（组装登录号）、doi（文献DOI）三个字段，记录基因组项目与文献引用的关联信息
OMG_additional_file_3.tsv
文件格式：TSV
字段映射介绍：包含Taxon_oid（分类单元OID）、JGI Proposal（JGI项目编号）、DOI Publication（文献DOI）、PMID Publication（文献PMID）、DOI（文献DOI）五个字段，记录分类单元与文献引用的关联信息

数据来源

论文“The OMG dataset: An Open MetaGenomic corpus for mixed-modality genomic language modeling”

适用场景

混合模态基因组语言建模研究：为基因组学领域的多模态语言模型训练提供补充文本数据
基因组文献关联分析：通过文件中的DOI、PMID等字段，分析基因组项目与学术文献的引用关系
微生物分类单元研究：利用Taxon_oid字段关联分类单元信息，支持微生物基因组学研究
基因组项目元数据整合：整合不同格式文件中的项目ID、组装登录号等信息，构建基因组项目元数据库

数据与资源

13316133.zipZIP
33.76 MiB

下载

附加信息

字段	值
作者	Maxj
版本	1
数据集大小	33.76 MiB
最后更新	2026年1月30日
创建于	2026年1月30日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。