数据集

历史手写数字数据集

历史手写数字数据集数据来源：互联网公开数据
标签：手写数字,历史文档,OCR,图像识别,数据集,机器学习,计算机视觉

数据概述：
本数据集（DIDA）是目前最大的历史手写数字数据集，包含250,000张单数字图像和200,000张多数字图像，从1800年至1940年的瑞典历史手写文档中采集。数据集涵盖0-9的10个数字类别，每个类别包含20,000-25,000张单数字图像。图像保留了原始尺寸和外观，以RGB颜色空间呈现，未经过尺寸归一化或降噪处理。数据集具有以下特点：
1. 图像退化：由于纸张和墨水质量、文档老化以及变形等因素，图像中存在背景变化、透写、晕染等退化现象。
2. 手写风格多样性：数字由不同风格（如铜版体、草书、哥特体）书写，使用不同类型的墨水、笔尖和蘸水笔，导致数字在大小、形状、方向和排列上呈现多样性。

数据用途概述：
该数据集适用于光学字符识别（OCR）、手写数字检测与识别、图像处理算法开发以及历史文档研究等领域。研究人员可利用此数据集测试和优化手写字符识别方法；开发人员可用于训练和验证OCR模型；历史学家和档案学家可借助数据集对手写数字的演变规律进行分析。此外，数据集还支持计算机视觉领域的教育和培训，帮助学习者理解复杂图像处理问题的挑战与解决方案。

数据与资源

历史手写数字数据集.zipZIP
压缩文件（.zip），可能包含多个数据文件。

下载

附加信息

字段	值
版本	1.0
最后更新	六月 4, 2025, 18:00 (UTC)
创建于	六月 4, 2025, 17:58 (UTC)
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

历史手写数字数据集

数据与资源

附加信息

注册成功！