数据集概述
该数据集是BioCreative VII Track 1任务的金标准标注语料库,包含训练集、开发集、测试集及背景集,涵盖PubMed摘要、人工标注的化学物质/基因实体及化学-蛋白质关系,用于推动药物发现、精准医疗相关的文本挖掘系统开发。
文件详解
- 训练集文件夹
- drugprot_training_abstracts.tsv:TSV格式,含PubMed摘要记录(PMID、标题、摘要)
- drugprot_training_entities.tsv:TSV格式,人工标注的化学物质、基因/蛋白质实体(PMID、术语编号、实体类型、字符偏移、文本)
- drugprot_training_relations.tsv:TSV格式,化学-蛋白质关系标注(PMID、关系类型、化学实体、基因实体)
- 开发集文件夹
- drugprot_development_abstracts.tsv:TSV格式,开发集PubMed摘要
- drugprot_development_entities.tsv:TSV格式,开发集实体标注
- drugprot_development_relations.tsv:TSV格式,开发集关系标注
- 测试+背景集文件夹
- test_background_abstracts.tsv:TSV格式,测试及背景集PubMed摘要
- test_background_entities.tsv:TSV格式,测试及背景集实体标注
适用场景
- 生物医学文本挖掘研究:开发化学物质-蛋白质相互作用抽取模型
- 知识图谱构建:生成药物相关的生物医学知识图谱
- 药物发现应用:挖掘潜在的药物靶点及作用机制
- 精准医疗研究:分析药物与基因的关联关系
- 生物信息学算法评估:作为基准数据集测试实体关系抽取系统性能