德国字符识别数据集-字符-数字与数学符号图像数据集-thomassedlmeyr

德国字符识别数据集-字符-数字与数学符号图像数据集-thomassedlmeyr

数据来源:互联网公开数据

标签:字符识别, 德国, OCR, 图像分类, 机器学习, 深度学习, 灰度图像, 数字, 数学符号, 教育

数据概述: 本数据集包含282,472张灰度图像,每张图像尺寸为40 x 40像素,图像内容涵盖82个不同的德国字符、数字和数学符号。与MNIST数据集不同,本数据集中的图像都经过完美对齐处理,字符居中于40 x 40的边界框内,且与左右或上下边界相切。这种对齐方式极大地简化了训练任务,从而提高了性能指标。

数据集分为训练集和测试集,分别存储在两个独立的CSV文件中。每个CSV文件的第一列表示Unicode字符,后续的1600个值代表扁平化图像的灰度值。

数据用途概述: 该数据集适用于字符识别、图像分类、机器学习模型训练等多种场景。研究人员和开发者可利用此数据进行算法测试与优化,开发德国字符识别相关的应用,如光学字符识别(OCR)系统。特别是,该数据集非常适合用于深度学习模型的训练,例如卷积神经网络(CNN)。此外,该数据集也适合用于教育目的,例如用于演示图像识别的原理、进行编程练习等。

数据集生成: 该数据集由大约1000名年龄在11-19岁的德国高中生共同创建。所有字符均通过经过调整和优化的泛洪填充算法检测和提取,并缩放到40 x 40像素的图像。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 159.81 MiB
最后更新 2025年5月31日
创建于 2025年5月31日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。