数据集概述
本数据集是基于ClinicalTrials.gov数据库的COVID-19相关临床试验文本挖掘结果,通过自动化管道动态标记试验中提及的化学物质、蛋白质和基因名称,包含8个数据文件,支持对临床试验生物医学实体的追踪与分析,数据将定期更新。
文件详解
- protein_whitelist.json
- 文件格式:JSON
- 字段映射介绍:包含
words(蛋白质白名单词汇)、timestamp(时间戳)字段
- chemical_whitelist.json
- 文件格式:JSON
- 字段映射介绍:包含
words(化学物质白名单词汇)、timestamp(时间戳)字段
- chem_timeline.csv
- 文件格式:CSV
- 字段映射介绍:包含
date(日期)及多个CHEMBL编号字段(如CHEMBL1535),记录化学物质相关时间序列数据
- chemical_cluster_dict.json
- 文件格式:JSON
- 字段映射介绍:化学物质聚类字典数据
- protein_cath.json
- 文件格式:JSON
- 字段映射介绍:蛋白质CATH分类相关数据
- protein_blacklist.json
- 文件格式:JSON
- 字段映射介绍:蛋白质黑名单数据
- chem_cluster.json
- 文件格式:JSON
- 字段映射介绍:化学物质聚类数据
- chemical_blacklist.json
- 文件格式:JSON
- 字段映射介绍:化学物质黑名单数据
数据来源
Zenodo(基于ClinicalTrials.gov数据库的文本挖掘结果)
适用场景
- COVID-19临床试验生物标志物分析: 挖掘临床试验中高频提及的蛋白质、化学物质,识别潜在生物标志物
- 药物研发趋势追踪: 通过chem_timeline.csv分析化学物质在临床试验中的时间分布,洞察研发热点变化
- 生物医学实体聚类研究: 利用chemical_cluster_dict.json、chem_cluster.json开展化学物质分类与关联分析
- 临床试验文本数据标准化: 基于白名单/黑名单数据优化生物医学实体识别模型的准确性
- 可视化分析支撑: 为交互式图形视图(如https://yan073.github.io/visualtag/)提供结构化数据基础