EuPMC_Based_开放获取出版物命名实体提取事实数据

数据集概述

本数据集从2016年6月1日至5日的EuropePMC开放获取(OA)出版物全文中提取命名实体,通过将文本加载到ElasticSearch并使用ContentMine词典查询完成。包含2个JSON格式文件,无目录层级,未划分训练/测试、数据/标签或原始/处理集,文件类型单一为JSON。

文件详解

  • 文件名称:metadata20160601-05.json
  • 文件格式:JSON
  • 字段映射介绍:包含2016年6月1日至5日EuPMC开放获取出版物的元数据信息
  • 文件名称:facts20160601-05.json
  • 文件格式:JSON
  • 字段映射介绍:包含从上述出版物中提取的命名实体事实数据,涉及医学相关关键词(如ct)

数据来源

EuropePMC开放获取出版物

适用场景

  • 医学文献命名实体识别研究: 分析开放获取医学文献中命名实体的分布与提取效果
  • 医学知识图谱构建: 利用提取的事实数据补充医学知识图谱的实体与关系
  • 文献检索优化: 基于命名实体提取结果提升医学文献的检索精准度
  • 医学领域词典验证: 验证ContentMine词典在医学文献实体提取中的适用性
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 59.69 MiB
最后更新 2026年1月29日
创建于 2026年1月29日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。