Biolinks_Source_科学出版物语义分布与相似性支持数据集

数据集概述

本数据集为Biolinks项目配套资源,包含科学出版物的语义标注、相似性矩阵、信息增益计算结果及相关算法与可视化组件。基于TREC-05集合的4240篇文献,提供标题摘要(TA)、标题摘要+全文(TAFT)、全文(FT)三种语义标注数据集,支持语义组分布评分与相似性计算,可用于生命科学领域文献检索的语义分析优化。

文件详解

  • 标注与数据集文件
  • 文件名称:JSON-LD.zip、profiles.zip、similarity.zip
  • 文件格式:ZIP
  • 字段映射介绍:包含TA-dataset(PubMed标题摘要UMLS标注)、TAFT-dataset(PubMed-PMC标题摘要标注)、FT-dataset(PMC全文标注),以及全局相似性矩阵
  • 数据列表文件
  • 文件名称:genomics.qrels.large.pubmed.onlyRelevants.titleAndAbstract.tsv、genomics.qrels.large.pmc.onlyRelevants.fullContent.tsv
  • 文件格式:TSV
  • 字段映射介绍:记录含标题摘要/全文标注的文献列表,包含topic、pmid、relation、pmc、title、abstract等字段
  • 信息增益计算文件
  • 文件名称:IG_umls_groups.PMID.xlsx、IG_biolinks_groups.PMID.xlsx
  • 文件格式:XLSX
  • 字段映射介绍:分别基于UMLS语义组和Biolinks新语义组的信息增益计算结果,后者提升约5%
  • 语义组定义文件
  • 文件名称:biolinks_groups.tsv
  • 文件格式:TSV
  • 字段映射介绍:Biolinks项目提出的新语义组分类定义
  • 算法与可视化组件文件
  • 文件名称:biotea-io-parser-master.zip、biotea-vis-*master.zip、biotea-biolinks-gh-pages.zip
  • 文件格式:ZIP
  • 字段映射介绍:包含开源算法解析器、语义标注/相似性/主题分布等可视化组件及演示页面的冻结版本,遵循Apache-2.0协议

数据来源

Biolinks项目配套资源(含TREC-05集合、PubMed、PMC数据)

适用场景

  • 生命科学文献语义检索优化:利用语义相似性矩阵和分布评分,提升相关文献推荐的准确性
  • 语义组分类研究:对比UMLS与Biolinks语义组的信息增益,优化科学文献的语义分类体系
  • 文献相似性评估:通过Silhouette Coefficient分析,验证语义相似性 metric 对文献分组的凝聚力
  • 学术数据可视化:使用提供的Web组件,直观展示文献的语义标注、相似性及主题分布特征
  • 自然语言处理算法验证:基于开源算法解析器,测试生物医学文本的语义标注与相似性计算逻辑
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 268.06 MiB
最后更新 2026年1月23日
创建于 2026年1月23日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。