罕见病MEDLINE事件注册库_2023年人工标注文献与分类评估数据

数据集概述

本数据集为2023年生成,基于2022年从MEDLINE(科学文献)和Event Registry(新闻)收集的数据,支持罕见病挖掘项目。包含16种罕见病的人工标注文献,涉及科学论文和新闻文章的标注及分类器评估数据,用于相关研究论文的开发。

文件详解

  • JSON文件
  • 文件名称:preproc2-input-media.json、preproc2-input-science.json
  • 文件格式:JSON
  • 字段映射介绍:分类器评估的输入文件,包含标题、文章正文和MeSH标题ID(可从NCBI获取)
  • CSV文件
  • 文件名称:MeSH Evaluation - Rare Diseases - papers.csv、MeSH Evaluation - Rare Diseases - news.csv
  • 文件格式:CSV
  • 字段映射介绍:人工标注数据及评估结果。论文CSV含PubMed ID、标题、专家MeSH分配、MeSH ID等;新闻CSV含ER ID、标题、专家MeSH分配、MeSH ID等;以"f1_"、"pr_"、"re_"开头的CSV为F1/精确率/召回率评估结果

数据来源

Rare Diseases Mining项目(https://idefine-europe.org/medline

适用场景

  • 罕见病文本分类研究:用于训练和评估罕见病相关文献的自动分类模型
  • 医学文献标注分析:分析人工标注的MeSH标题与自动标注结果的差异,优化标注方法
  • 罕见病数据可视化:支持罕见病相关科学论文和新闻文章的交互式数据可视化研究
  • 医疗信息抽取:从文献中抽取罕见病相关的关键信息,辅助临床研究和决策
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 0.07 MiB
最后更新 2026年1月26日
创建于 2026年1月26日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。