COVID_19_ClinicalTrials_gov_临床试验提及蛋白质和化学物质文本挖掘数据_2023

关注者: 0

资源积分: 30

分类

公开数据

公开数据

授权

没有提供授权

数据集

COVID_19_ClinicalTrials_gov_临床试验提及蛋白质和化学物质文本挖掘数据_2023

数据集概述

本数据集是基于ClinicalTrials.gov数据库的COVID-19相关临床试验文本挖掘结果，通过自动化管道动态标记试验中提及的化学物质、蛋白质和基因名称，包含8个数据文件，支持对临床试验生物医学实体的追踪与分析，数据将定期更新。

文件详解

protein_whitelist.json
文件格式：JSON
字段映射介绍：包含words（蛋白质白名单词汇）、timestamp（时间戳）字段
chemical_whitelist.json
文件格式：JSON
字段映射介绍：包含words（化学物质白名单词汇）、timestamp（时间戳）字段
chem_timeline.csv
文件格式：CSV
字段映射介绍：包含date（日期）及多个CHEMBL编号字段（如CHEMBL1535），记录化学物质相关时间序列数据
chemical_cluster_dict.json
文件格式：JSON
字段映射介绍：化学物质聚类字典数据
protein_cath.json
文件格式：JSON
字段映射介绍：蛋白质CATH分类相关数据
protein_blacklist.json
文件格式：JSON
字段映射介绍：蛋白质黑名单数据
chem_cluster.json
文件格式：JSON
字段映射介绍：化学物质聚类数据
chemical_blacklist.json
文件格式：JSON
字段映射介绍：化学物质黑名单数据

数据来源

Zenodo（基于ClinicalTrials.gov数据库的文本挖掘结果）

适用场景

COVID-19临床试验生物标志物分析: 挖掘临床试验中高频提及的蛋白质、化学物质，识别潜在生物标志物
药物研发趋势追踪: 通过chem_timeline.csv分析化学物质在临床试验中的时间分布，洞察研发热点变化
生物医学实体聚类研究: 利用chemical_cluster_dict.json、chem_cluster.json开展化学物质分类与关联分析
临床试验文本数据标准化: 基于白名单/黑名单数据优化生物医学实体识别模型的准确性
可视化分析支撑: 为交互式图形视图（如https://yan073.github.io/visualtag/）提供结构化数据基础

数据与资源

8355012.zipZIP
1.42 MiB

下载

附加信息

字段	值
作者	Maxj
版本	1
数据集大小	1.42 MiB
最后更新	2025年12月30日
创建于	2025年12月30日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

智能助手

您好！我是海数据平台的智能助手，有什么可以帮助您的吗？