数据集概述
本数据集整理自ClinicalTrials.gov平台的Covid-19试验记录,包含出现频率前200的蛋白质信息,按CATH分类分组,并提供指向原试验记录的URL链接。数据集含3个文件,覆盖蛋白质分类、化学物质时间线及聚类信息。
文件详解
- 文件名称:chem_timeline.csv
- 文件格式:CSV
- 字段映射介绍:包含日期字段(date)及多个CHEMBL编号对应的化学物质字段(如CHEMBL1535、CHEMBL2391146等),记录化学物质相关时间维度数据。
- 文件名称:protein_cath.json
- 文件格式:JSON
- 字段映射介绍:按CATH分类分组的Covid-19试验记录前200蛋白质信息,包含蛋白质与CATH分类的映射关系,及指向ClinicalTrials.gov试验记录的URL链接。
- 文件名称:chem_cluster.json
- 文件格式:JSON
- 字段映射介绍:Covid-19试验相关化学物质的聚类数据,记录化学物质的聚类分组信息。
数据来源
ClinicalTrials.gov平台的Covid-19试验记录
适用场景
- 新冠药物靶点研究:分析试验记录中高频蛋白质,识别潜在药物靶点。
- 蛋白质结构分类研究:基于CATH分类数据,探究新冠相关蛋白质的结构特征与功能关联。
- 临床试验化学物质分析:通过化学物质时间线和聚类数据,研究试验中化学物质的应用趋势及关联关系。
- 生物医药数据整合:链接临床试验记录,支持蛋白质与试验方案的交叉验证分析。