数据集概述
本数据集包含人类及小鼠、大鼠、猪等模式哺乳动物的蛋白质编码基因标识符,以及用于基因命名消歧的相关数据。数据源自Ensembl基因组浏览器,支持R脚本测试与新输入文件制备,相关信息可通过说明文档及代码仓库获取。
文件详解
- 文件名称: Readme.docx
- 文件格式: DOCX (.docx)
- 内容说明: 数据集说明文档,提供R脚本使用、数据文件结构及测试方法等背景信息
- 压缩文件组 (共23个ZIP格式文件):
- R_protein-coding unique.zip: 可能包含人类及模式哺乳动物的蛋白质编码基因唯一标识符数据
- R_genes linked to ambiguous symbols.zip: 可能包含与歧义符号关联的基因数据
- R_test of additional IDs in Ensembl Pig.zip: 可能包含Ensembl猪基因组中额外基因ID的测试数据
- R_Ensembl novel genes mouse.zip: 可能包含Ensembl数据库中小鼠新基因数据
- R_ensembl gene symbol search rat.zip: 可能包含基于Ensembl基因符号搜索的大鼠基因数据
- R_ambiguous official symbols.zip: 可能包含歧义官方基因符号相关数据
- R_NCBI test.zip: 可能包含NCBI数据库基因ID的测试数据
- R_HUGO test.zip: 可能包含HUGO基因命名委员会标准的测试数据
适用场景
- 分子生物学研究: 分析人类与模式哺乳动物蛋白质编码基因的结构与功能
- 基因组学分析: 验证Ensembl等数据库中基因标识符的一致性与准确性
- 生物信息学工具开发: 测试基因命名消歧算法及标识符映射脚本的有效性
- 跨物种基因比较研究: 探究不同哺乳动物间同源基因的进化关系与功能保守性