德国字符识别数据集-字符-数字与数学符号图像数据集-thomassedlmeyr
数据来源:互联网公开数据
标签:字符识别, 德国, OCR, 图像分类, 机器学习, 深度学习, 灰度图像, 数字, 数学符号, 教育
数据概述:
本数据集包含282,472张灰度图像,每张图像尺寸为40 x 40像素,图像内容涵盖82个不同的德国字符、数字和数学符号。与MNIST数据集不同,本数据集中的图像都经过完美对齐处理,字符居中于40 x 40的边界框内,且与左右或上下边界相切。这种对齐方式极大地简化了训练任务,从而提高了性能指标。
数据集分为训练集和测试集,分别存储在两个独立的CSV文件中。每个CSV文件的第一列表示Unicode字符,后续的1600个值代表扁平化图像的灰度值。
数据用途概述:
该数据集适用于字符识别、图像分类、机器学习模型训练等多种场景。研究人员和开发者可利用此数据进行算法测试与优化,开发德国字符识别相关的应用,如光学字符识别(OCR)系统。特别是,该数据集非常适合用于深度学习模型的训练,例如卷积神经网络(CNN)。此外,该数据集也适合用于教育目的,例如用于演示图像识别的原理、进行编程练习等。
数据集生成:
该数据集由大约1000名年龄在11-19岁的德国高中生共同创建。所有字符均通过经过调整和优化的泛洪填充算法检测和提取,并缩放到40 x 40像素的图像。