数据集概述
本数据集为Biolinks项目配套资源,包含科学出版物的语义标注、相似性矩阵、信息增益计算结果及相关算法与可视化组件。基于TREC-05集合的4240篇文献,提供标题摘要(TA)、标题摘要+全文(TAFT)、全文(FT)三种语义标注数据集,支持语义组分布评分与相似性计算,可用于生命科学领域文献检索的语义分析优化。
文件详解
- 标注与数据集文件
- 文件名称:JSON-LD.zip、profiles.zip、similarity.zip
- 文件格式:ZIP
- 字段映射介绍:包含TA-dataset(PubMed标题摘要UMLS标注)、TAFT-dataset(PubMed-PMC标题摘要标注)、FT-dataset(PMC全文标注),以及全局相似性矩阵
- 数据列表文件
- 文件名称:genomics.qrels.large.pubmed.onlyRelevants.titleAndAbstract.tsv、genomics.qrels.large.pmc.onlyRelevants.fullContent.tsv
- 文件格式:TSV
- 字段映射介绍:记录含标题摘要/全文标注的文献列表,包含topic、pmid、relation、pmc、title、abstract等字段
- 信息增益计算文件
- 文件名称:IG_umls_groups.PMID.xlsx、IG_biolinks_groups.PMID.xlsx
- 文件格式:XLSX
- 字段映射介绍:分别基于UMLS语义组和Biolinks新语义组的信息增益计算结果,后者提升约5%
- 语义组定义文件
- 文件名称:biolinks_groups.tsv
- 文件格式:TSV
- 字段映射介绍:Biolinks项目提出的新语义组分类定义
- 算法与可视化组件文件
- 文件名称:biotea-io-parser-master.zip、biotea-vis-*master.zip、biotea-biolinks-gh-pages.zip
- 文件格式:ZIP
- 字段映射介绍:包含开源算法解析器、语义标注/相似性/主题分布等可视化组件及演示页面的冻结版本,遵循Apache-2.0协议
数据来源
Biolinks项目配套资源(含TREC-05集合、PubMed、PMC数据)
适用场景
- 生命科学文献语义检索优化:利用语义相似性矩阵和分布评分,提升相关文献推荐的准确性
- 语义组分类研究:对比UMLS与Biolinks语义组的信息增益,优化科学文献的语义分类体系
- 文献相似性评估:通过Silhouette Coefficient分析,验证语义相似性 metric 对文献分组的凝聚力
- 学术数据可视化:使用提供的Web组件,直观展示文献的语义标注、相似性及主题分布特征
- 自然语言处理算法验证:基于开源算法解析器,测试生物医学文本的语义标注与相似性计算逻辑