DrugProt语料库_BioCreative_VII_Track1_药物化学物质_蛋白质相互作用文本挖掘数据集

数据集概述

该数据集是BioCreative VII Track 1任务的金标准标注语料库,包含训练集、开发集、测试集及背景集,涵盖PubMed摘要、人工标注的化学物质/基因实体及化学-蛋白质关系,用于推动药物发现、精准医疗相关的文本挖掘系统开发。

文件详解

  • 训练集文件夹
  • drugprot_training_abstracts.tsv:TSV格式,含PubMed摘要记录(PMID、标题、摘要)
  • drugprot_training_entities.tsv:TSV格式,人工标注的化学物质、基因/蛋白质实体(PMID、术语编号、实体类型、字符偏移、文本)
  • drugprot_training_relations.tsv:TSV格式,化学-蛋白质关系标注(PMID、关系类型、化学实体、基因实体)
  • 开发集文件夹
  • drugprot_development_abstracts.tsv:TSV格式,开发集PubMed摘要
  • drugprot_development_entities.tsv:TSV格式,开发集实体标注
  • drugprot_development_relations.tsv:TSV格式,开发集关系标注
  • 测试+背景集文件夹
  • test_background_abstracts.tsv:TSV格式,测试及背景集PubMed摘要
  • test_background_entities.tsv:TSV格式,测试及背景集实体标注

适用场景

  • 生物医学文本挖掘研究:开发化学物质-蛋白质相互作用抽取模型
  • 知识图谱构建:生成药物相关的生物医学知识图谱
  • 药物发现应用:挖掘潜在的药物靶点及作用机制
  • 精准医疗研究:分析药物与基因的关联关系
  • 生物信息学算法评估:作为基准数据集测试实体关系抽取系统性能
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 12.8 MiB
最后更新 2025年12月4日
创建于 2025年12月4日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。