数据集

Biolinks_Source_科学出版物语义分布与相似性支持数据集

数据集概述

本数据集为Biolinks项目配套资源，包含科学出版物的语义标注、相似性矩阵、信息增益计算结果及相关算法与可视化组件。基于TREC-05集合的4240篇文献，提供标题摘要（TA）、标题摘要+全文（TAFT）、全文（FT）三种语义标注数据集，支持语义组分布评分与相似性计算，可用于生命科学领域文献检索的语义分析优化。

文件详解

标注与数据集文件
文件名称：JSON-LD.zip、profiles.zip、similarity.zip
文件格式：ZIP
字段映射介绍：包含TA-dataset（PubMed标题摘要UMLS标注）、TAFT-dataset（PubMed-PMC标题摘要标注）、FT-dataset（PMC全文标注），以及全局相似性矩阵
数据列表文件
文件名称：genomics.qrels.large.pubmed.onlyRelevants.titleAndAbstract.tsv、genomics.qrels.large.pmc.onlyRelevants.fullContent.tsv
文件格式：TSV
字段映射介绍：记录含标题摘要/全文标注的文献列表，包含topic、pmid、relation、pmc、title、abstract等字段
信息增益计算文件
文件名称：IG_umls_groups.PMID.xlsx、IG_biolinks_groups.PMID.xlsx
文件格式：XLSX
字段映射介绍：分别基于UMLS语义组和Biolinks新语义组的信息增益计算结果，后者提升约5%
语义组定义文件
文件名称：biolinks_groups.tsv
文件格式：TSV
字段映射介绍：Biolinks项目提出的新语义组分类定义
算法与可视化组件文件
文件名称：biotea-io-parser-master.zip、biotea-vis-*master.zip、biotea-biolinks-gh-pages.zip
文件格式：ZIP
字段映射介绍：包含开源算法解析器、语义标注/相似性/主题分布等可视化组件及演示页面的冻结版本，遵循Apache-2.0协议

数据来源

Biolinks项目配套资源（含TREC-05集合、PubMed、PMC数据）

适用场景

生命科学文献语义检索优化：利用语义相似性矩阵和分布评分，提升相关文献推荐的准确性
语义组分类研究：对比UMLS与Biolinks语义组的信息增益，优化科学文献的语义分类体系
文献相似性评估：通过Silhouette Coefficient分析，验证语义相似性 metric 对文献分组的凝聚力
学术数据可视化：使用提供的Web组件，直观展示文献的语义标注、相似性及主题分布特征
自然语言处理算法验证：基于开源算法解析器，测试生物医学文本的语义标注与相似性计算逻辑

数据与资源

829920.zipZIP
268.06 MiB

下载

附加信息

字段	值
作者	Maxj
版本	1
数据集大小	268.06 MiB
最后更新	2026年1月23日
创建于	2026年1月23日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

Biolinks_Source_科学出版物语义分布与相似性支持数据集

数据集概述

文件详解

数据来源

适用场景

数据与资源

附加信息

注册成功！