数据集概述
本数据集为MiRoR11-P2项目下的标注语料库,用于主要结局与报告结局的提取任务。包含两个子文件夹,分别存储主要结局和报告结局的标注文本,支持医疗文本中结局信息的结构化提取研究,总含多格式标注文件及交叉验证子数据集。
文件详解
- Primary_outcomes子文件夹
- ConstruKT格式单实体标注文件:
po_sent_marked_p1_1000.txt(1-1000句)、po_sent_marked_p2_1000.txt(1001-2000句),将并列结局标注为单一实体
- 表格格式单实体标注文件:
po_sent_marked_col_p1.txt(1-1000句)、po_sent_marked_col_p2.txt(1001-2000句),将并列结局标注为单一实体
- 表格格式多实体标注文件:
po_sent_marked_col_p1_coord.txt(1-1000句)、po_sent_marked_col_p2_coord.txt(1001-2000句),将并列结局标注为独立实体
- 交叉验证子文件夹:
po(单实体标注10折交叉验证集,含train/dev/test子集)、po_coord(多实体标注10折交叉验证集,含train/dev/test子集)
- Reported_outcomes子文件夹
- ConstruKT格式标注文件:
res_sent_marked_p1.txt(对应主要结局1-1000句的文献结果与结论部分)、res_sent_marked_p2.txt(对应主要结局1001-2000句的文献结果与结论部分)
- 表格格式标注文件:
res_sent_marked_p1_col.txt(第一部分)、res_sent_marked_p2_col.txt(第二部分)
- 交叉验证子文件夹:
rep(10折交叉验证集,含train/dev/test子集)
数据来源
MiRoR11-P2项目
适用场景
- 医疗文本结局提取模型训练: 用于开发和优化从医学文献中自动识别主要结局与报告结局的自然语言处理模型
- 并列结局标注策略研究: 对比单实体与多实体标注方式对结局提取任务的影响
- 临床研究结局结构化分析: 辅助医学研究人员从文献结果中提取标准化的结局指标
- 文本标注格式有效性验证: 评估ConstruKT格式与表格格式在医疗文本标注任务中的适用性
- 模型泛化能力测试: 利用10折交叉验证子集验证结局提取模型的稳定性与泛化性能