印度医学文章分类数据集1963-2021
数据来源:互联网公开数据
标签:医学文章,分类,内部医学,医学期刊,子专科,数据科学
数据概述:
本数据集收录了从PubMed检索并导出的医学文章,涵盖了1963年至2021年间内部医学(IM)及其11个子专科(血管内科、心脏病学、胃肠病学与肝病学、肾病学、血液学、肺病学、内分泌学、风湿病学、老年病学、重症监护医学、感染病学)的相关文章。数据集通过文章来源期刊的主攻领域为文章标注了专科标签。数据集在内部医学与非内部医学专科文章数量方面保持平衡。
数据用途概述:
该数据集适用于二元分类和多分类任务,可用于根据文章标题预测其所属的专科领域或是否为内部医学文章。研究人员可通过分析此数据集了解医学各专科的发展趋势和文章分布情况;教育机构可利用数据集进行医学文本分类模型的教育与训练;医疗信息服务平台可借助数据提升文章推荐的准确性。
数据字段定义:
pmid: 每篇文章的唯一PubMed-ID标识符。
title: 文章标题。
journal: 文章来源期刊(仅作为标签参考)。
label: 文章所属专科的缩写标签,由期刊主攻领域手动标注。
im: 文章是否属于内部医学的二元分类标签,'im'表示内部医学文章,'other'表示非内部医学文章。
标签信息:
angio: 血管内科 (im)
cardio: 心脏病学 (im)
endo: 内分泌学 (im)
gastro: 胃肠病学与肝病学 (im)
geri: 老年病学 (im)
hemato: 血液学 (im)
infect: 感染病学 (im)
intens: 重症监护医学 (im)
nephro: 肾病学 (im)
pulmo: 肺病学 (im)
rheu: 风湿病学 (im)
anest: 麻醉学 (other)
oto: 耳鼻喉科 (other)
gyn: 妇产科 (other)
surgery: 外科 (other)
psych: 精神病学 (other)
neuro: 神经病学 (other)
ped: 儿科 (other)