黑客马拉松_TF_TG_关系_注释_黄金标准语料库

数据集概述

本数据集为TF-TG关系标注黄金标准语料库,包含130个PMID对应的生物医学文献标注数据,以ZIP压缩包形式存储。数据用于基因调控领域的文本标注研究,提供原始摘要文本与BRAT格式的术语及关系标注文件,支持生物医学文本挖掘相关分析。

文件详解

  • 压缩包文件
  • 文件名称:TFTG_V3.zip
  • 文件格式:ZIP
  • 内部文件说明:每个PMID对应2个文件,包括:
  • PMID.txt:原始摘要文本文件,格式为TXT
  • PMID.ann:BRAT标注文件,格式为ANN,包含术语标注(如T1、T2)和关系标注(如R1、R2),每条关系定义从一个术语到另一个术语的关联

适用场景

  • 生物医学文本标注模型训练: 用于训练和评估识别TF-TG基因调控关系的文本标注模型
  • 基因调控关系抽取研究: 分析生物医学文献中TF(转录因子)与TG(靶基因)的关联模式
  • 生物医学语料库构建: 作为黄金标准语料库补充生物医学文本挖掘数据集
  • BRAT标注格式应用研究: 探索BRAT工具在生物医学术语与关系标注中的实践方法
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 0.35 MiB
最后更新 2026年1月31日
创建于 2026年1月31日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。