药物靶标相互作用文本数据集DrugTargetInteractionTextDataset-laasyasri07

药物靶标相互作用文本数据集DrugTargetInteractionTextDataset-laasyasri07

数据来源:互联网公开数据

标签:药物研发, 靶标识别, 文本挖掘, 生物信息学, 药物相互作用, 结构化数据, 机器学习, 化学信息学

数据概述: 该数据集包含来自PubChem数据库的化合物文本数据,记录了药物与靶标之间的相互作用信息。主要特征如下: 时间跨度:数据未明确标注时间,可视为静态数据集。 地理范围:数据来源于PubChem数据库,涵盖全球范围内的化合物信息。 数据维度:数据集包括化合物的化学结构、理化性质、以及与靶标相互作用的文本描述信息。具体字段包括:cid(化合物标识符)、cmpd(化合物名称)、cmpdsynonym(化合物同义词)、mw(分子量)、mf(分子式)、polararea(极性表面积)、complexity(复杂度)、xlogp(计算logP值)、heavycnt(重原子数)、hbonddonor(氢键供体数)、hbondacc(氢键受体数)、rotbonds(可旋转键数)、inchi(InChI字符串)、smiles(SMILES字符串)、inchikey(InChIKey)、iupac(IUPAC命名)、exactmass(精确质量)、monoisotopicmass(单一同位素质量)、charge(净电荷)、covalentunitcnt(共价单元计数)、isotopeatomcnt(同位素原子计数)、totalatomstereocnt(总原子立体异构中心数)、definedatomstereocnt(已定义原子立体异构中心数)、undefinedatomstereocnt(未定义原子立体异构中心数)、totalbondstereocnt(总键立体异构中心数)、definedbondstereocnt(已定义键立体异构中心数)、undefinedbondstereocnt(未定义键立体异构中心数)、pclidcnt(PubChem Compound Link ID计数)、gpidcnt(PubChem Gene ID计数)、gpfamilycnt(基因家族计数)、meshheadings(MeSH标题)、annothits(注释命中数)、annothitcnt(注释命中计数)、aids(AID列表)、cidcdate(化合物创建日期)、sidsrc(SID来源)、depcatg(依赖类别)、annotation(注释)。 数据格式:CSV格式,文件名为PubChem_compound_text_drug target interaction datasetscsv,便于分析和处理。 该数据集适合用于药物研发、靶标发现、以及药物相互作用预测等研究。

数据用途概述: 该数据集具有广泛的应用潜力,特别适用于以下场景: 研究与分析:适用于生物信息学、药物化学、计算生物学等领域的研究,例如药物靶标相互作用预测、药物设计、化合物性质分析等。 行业应用:可为制药企业、生物技术公司提供数据支持,用于药物研发流程中的靶标筛选、先导化合物发现、药物安全性评估等。 决策支持:支持药物研发过程中的决策制定,例如选择合适的靶标、预测药物的药效和毒性。 教育和培训:作为生物信息学、药物化学等相关课程的辅助材料,帮助学生和研究人员理解药物与靶标的相互作用机制。 此数据集特别适合用于探索药物分子结构与生物活性之间的关系,以及构建预测药物靶标相互作用的模型,从而加速药物研发进程。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 3.78 MiB
最后更新 2025年4月29日
创建于 2025年4月29日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。