Pinkas_Based_近代早期欧洲犹太社区手稿数字化数据集2019

本数据集源自近代早期（约1500-1800年）记录欧洲犹太社区的希伯来文历史手稿，包含三十页高分辨率彩色JPG格式数字化图像，手稿存在多种退化、复杂排版及非专业抄写员的多样手写体，增加识别难度。同时提供PAGE格式的真值标注，涵盖词、行、页层级，定义了官方训练测试集划分及三种词定位基线方法。

文件名称：pinkas_dataset.zip
文件格式：ZIP（压缩包）
内容说明：压缩包包含三十页高分辨率彩色JPG格式的手稿数字化图像，以及对应页面的PAGE格式真值标注文件；标注覆盖词、行、页三个层级；内置官方训练与测试集划分，同时包含三种用于设置基线的词定位方法相关数据。

论文“The Pinkas Dataset”（发表于2019年第15届国际文档分析与识别会议ICDAR）

数据与资源

字段	值
作者	Maxj
版本	1
数据集大小	45.48 MiB
最后更新	2026年1月26日
创建于	2026年1月26日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。