历史手写数字数据集

历史手写数字数据集 数据来源:互联网公开数据
标签:手写数字,历史文档,OCR,图像识别,数据集,机器学习,计算机视觉

数据概述:
本数据集(DIDA)是目前最大的历史手写数字数据集,包含250,000张单数字图像和200,000张多数字图像,从1800年至1940年的瑞典历史手写文档中采集。数据集涵盖0-9的10个数字类别,每个类别包含20,000-25,000张单数字图像。图像保留了原始尺寸和外观,以RGB颜色空间呈现,未经过尺寸归一化或降噪处理。数据集具有以下特点:
1. 图像退化:由于纸张和墨水质量、文档老化以及变形等因素,图像中存在背景变化、透写、晕染等退化现象。
2. 手写风格多样性:数字由不同风格(如铜版体、草书、哥特体)书写,使用不同类型的墨水、笔尖和蘸水笔,导致数字在大小、形状、方向和排列上呈现多样性。

数据用途概述:
该数据集适用于光学字符识别(OCR)、手写数字检测与识别、图像处理算法开发以及历史文档研究等领域。研究人员可利用此数据集测试和优化手写字符识别方法;开发人员可用于训练和验证OCR模型;历史学家和档案学家可借助数据集对手写数字的演变规律进行分析。此外,数据集还支持计算机视觉领域的教育和培训,帮助学习者理解复杂图像处理问题的挑战与解决方案。

packageimg

数据与资源

附加信息

字段
版本 1.0
最后更新 六月 4, 2025, 18:00 (UTC)
创建于 六月 4, 2025, 17:58 (UTC)
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。