数据集概述
本数据集包含修正后的EBM-PICO测试集标注及相关词典资源,用于系统综述自动化中的PICO(参与者、干预措施、结局)实体识别。EBM-PICO数据集原分为众包标注训练集和专家标注测试集,存在标注质量问题。本数据集提供经错误修正的测试集标注,以及从临床实验数据库和文献中生成的PICO相关词典文件。
文件详解
- 修正测试集标注文件
- 文件名称:test_ebm_correctedlabels.tsv
- 文件格式:TSV
- 字段映射介绍:包含pmid(文献ID)、tokens(分词结果)、pos(词性标注)、offsets(位置偏移)、p_f(参与者细粒度标签)、i_f(干预措施细粒度标签)、o_f(结局细粒度标签)、text(文本内容)等字段。
- 错误分析文件
- 文件名称:error_analysis.xlsx
- 文件格式:XLSX
- 字段映射介绍:包含对EBM-PICO训练集标注错误的分析内容,用于解释错误原因及修正依据。
- 临床实验词典压缩包
- 文件名称:ds_cto_dict.zip
- 文件格式:ZIP
- 内容介绍:包含4个远程监督词典文件,分别为participant.txt(参与者词典)、intervention.txt(干预措施词典)、intervention_syn.txt(干预措施同义词词典)、outcome.txt(结局词典),从clinicaltrials.gov生成。
- 手工构建词典压缩包
- 文件名称:handcrafted_dictionaries.zip
- 文件格式:ZIP
- 内容介绍:包含3个文件,gender_sexuality.txt(性别与性取向词汇表)、endpoints_dict.txt(结局指标与问卷名称词典)、comparator_dict(对照术语词典,如sham、placebo等)。
数据来源
论文“Not So Weak-PICO: Leveraging weak supervision for Participants, Interventions, and Outcomes recognition for systematic review automation”
适用场景
- 医学文本PICO实体识别:用于训练和评估系统综述自动化中的PICO实体识别模型。
- 标注质量改进研究:分析EBM-PICO数据集标注错误类型,优化标注流程和质量控制方法。
- 远程监督方法研究:利用提供的词典资源,开展弱监督PICO实体识别方法研究。
- 系统综述自动化工具开发:为临床研究系统综述自动化工具提供高质量训练数据和词典支持。