数据集概述
本数据集为ICDAR 2023 DUDE竞赛提供训练、验证和测试集的真值标注,包含41454条标注数据,覆盖4974份文档。数据分为训练集、验证集和测试集,测试集为盲测集(无真值答案),已去除重复数据。
文件详解
- 文件名称:
2023-03-23_DUDE_gt_test_PUBLIC.json
- 文件格式:JSON
- 字段映射介绍:
- 核心字段:
docId(文档ID)、questionId(问题ID)、question(问题内容)、answers(答案内容)、answers_page_bounding_boxes(答案页面 bounding box)、answers_variants(答案变体)、answer_type(答案类型)、data_split(数据拆分类型)、document(文档信息)、OCR(OCR文本)
- 数据拆分:训练集23728条、验证集6315条、测试集11402条
- 测试集调整:去除9条重复数据(如
92bd5c758bda9bdceb5f67c17009207b_ac6964cbdf483e765b6668e27b3d0bc4等)
数据来源
ICDAR 2023 DUDE竞赛(https://rrc.cvc.uab.es/?ch=23&com=tasks)
适用场景
- 文档理解模型训练与验证: 用于训练和评估文档视觉问答、信息抽取类模型
- 竞赛算法开发: 支持DUDE竞赛参与者优化算法性能
- 文档OCR与信息定位研究: 结合
OCR和answers_page_bounding_boxes研究文档信息定位方法
- 答案类型与变体分析: 基于
answer_type和answers_variants探索文档答案的多样性表达
- 盲测集算法性能评估: 利用盲测集验证模型在无真值场景下的泛化能力