数据集概述
本数据集源自近代早期(约1500-1800年)记录欧洲犹太社区的希伯来文历史手稿,包含三十页高分辨率彩色JPG格式数字化图像,手稿存在多种退化、复杂排版及非专业抄写员的多样手写体,增加识别难度。同时提供PAGE格式的真值标注,涵盖词、行、页层级,定义了官方训练测试集划分及三种词定位基线方法。
文件详解
- 文件名称:pinkas_dataset.zip
- 文件格式:ZIP(压缩包)
- 内容说明:压缩包包含三十页高分辨率彩色JPG格式的手稿数字化图像,以及对应页面的PAGE格式真值标注文件;标注覆盖词、行、页三个层级;内置官方训练与测试集划分,同时包含三种用于设置基线的词定位方法相关数据。
数据来源
论文“The Pinkas Dataset”(发表于2019年第15届国际文档分析与识别会议ICDAR)
适用场景
- 历史手稿数字化处理研究:针对退化、复杂排版及多样手写体的犹太手稿图像修复与增强。
- 手写文字识别技术开发:基于多手写体、非专业抄写的中世纪希伯来文,优化OCR与手写文字识别模型。
- 文档布局分析研究:针对复杂排版的历史手稿,开展页、行、词层级的布局检测与结构分析。
- 词定位算法评估:利用官方划分的训练测试集及基线方法,验证与优化历史手稿的词定位技术。
- 犹太历史文献研究:通过数字化手稿内容,辅助近代早期欧洲犹太社区的历史文化分析。