Not_So_Weak_PICO_EBM_PICO修正标注及词典资源

数据集概述

本数据集包含修正后的EBM-PICO测试集标注及相关词典资源,用于系统综述自动化中的PICO(参与者、干预措施、结局)实体识别。EBM-PICO数据集原分为众包标注训练集和专家标注测试集,存在标注质量问题。本数据集提供经错误修正的测试集标注,以及从临床实验数据库和文献中生成的PICO相关词典文件。

文件详解

  • 修正测试集标注文件
  • 文件名称:test_ebm_correctedlabels.tsv
  • 文件格式:TSV
  • 字段映射介绍:包含pmid(文献ID)、tokens(分词结果)、pos(词性标注)、offsets(位置偏移)、p_f(参与者细粒度标签)、i_f(干预措施细粒度标签)、o_f(结局细粒度标签)、text(文本内容)等字段。
  • 错误分析文件
  • 文件名称:error_analysis.xlsx
  • 文件格式:XLSX
  • 字段映射介绍:包含对EBM-PICO训练集标注错误的分析内容,用于解释错误原因及修正依据。
  • 临床实验词典压缩包
  • 文件名称:ds_cto_dict.zip
  • 文件格式:ZIP
  • 内容介绍:包含4个远程监督词典文件,分别为participant.txt(参与者词典)、intervention.txt(干预措施词典)、intervention_syn.txt(干预措施同义词词典)、outcome.txt(结局词典),从clinicaltrials.gov生成。
  • 手工构建词典压缩包
  • 文件名称:handcrafted_dictionaries.zip
  • 文件格式:ZIP
  • 内容介绍:包含3个文件,gender_sexuality.txt(性别与性取向词汇表)、endpoints_dict.txt(结局指标与问卷名称词典)、comparator_dict(对照术语词典,如sham、placebo等)。

数据来源

论文“Not So Weak-PICO: Leveraging weak supervision for Participants, Interventions, and Outcomes recognition for systematic review automation”

适用场景

  • 医学文本PICO实体识别:用于训练和评估系统综述自动化中的PICO实体识别模型。
  • 标注质量改进研究:分析EBM-PICO数据集标注错误类型,优化标注流程和质量控制方法。
  • 远程监督方法研究:利用提供的词典资源,开展弱监督PICO实体识别方法研究。
  • 系统综述自动化工具开发:为临床研究系统综述自动化工具提供高质量训练数据和词典支持。
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 152.32 MiB
最后更新 2026年1月25日
创建于 2026年1月25日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。