古吉拉特语手写数字数据集

数据集概述

该数据集包含一万一千张古吉拉特语手写数字图像,覆盖零到九的数字类别。数据经系统收集、扫描与预处理,由三百五十余名不同年龄和教育背景的个体提供样本,旨在填补古吉拉特语手写数字公开数据集的空白,为区域语言识别模型开发提供支持。

文件详解

该数据集由多个文件和目录组成,具体说明如下: - 文档与代码文件: - README.md: 数据集概述文档,包含数据集背景、结构和使用说明 - digitGUI.ipynb: Jupyter Notebook文件,可能用于数字识别图形界面展示 - preprocess.py: Python脚本文件,用于数据预处理 - ghDigitReco.ipynb: Jupyter Notebook文件,可能用于古吉拉特语数字识别模型开发 - 图像数据文件 (位于 Gujarat-HWD/ 目录下): - 按数字类别分类存储于子目录(如 EIGHT/、FIVE/、FOUR/ 等) - 图像格式: JPG和PNG格式,共一万二千一百零七张 - 命名模式: 采用编号命名(如 0AEE_8.png、0AEB_1.jpg 等)

适用场景

  • 光学字符识别(OCR): 训练和评估古吉拉特语手写数字识别模型
  • 机器学习研究: 用于卷积神经网络(CNN)等模型的训练与测试
  • 区域语言处理: 开发针对古吉拉特语等区域文字的识别系统
  • 跨语言研究: 支持跨语言数字识别和手写体分析研究
  • 教育应用: 用于手写数字识别技术的教学和演示
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 64.01 MiB
最后更新 2025年11月26日
创建于 2025年11月26日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。