鲁科皮斯数据集
数据来源:互联网公开数据
标签:乌克兰,手写符号,字符集,图像数据,机器学习,光学字符识别,图像处理
数据概述:
本数据集包含约1000个(目前数量)乌克兰手写符号,每张符号图像以PNG格式保存,尺寸为200x200像素。图像信息记录在glyphs.csv文件中,文件包含以下字段:
- string label: 小写西里尔字母字符,代表图片中的符号。
- string transliter_kmu2010: 根据2010年1月27日乌克兰内阁决议的西里尔字母转写形式。软符号用' '表示,и和й在该系统中均显示为y。
- string name: 该符号的唯一名称,软符号用soft_sign表示。
- bool is_uppercase: 确定字母的大小写。
- category type: 字符类型,分为italic(手写斜体)和printed(手写仿印刷体)两种。
- category is_alternate: 确定是否使用了较少使用的书写方式。
- number top, bottom, left, right: 符号在200x200图像中的精确边界,单位为像素。这些数值在需要裁剪图像时会用到。
- number height, width: 符号的高度和宽度,单位为像素。
- string filename: 图像文件的地址,格式为glyphs/[name]-[number].png。
数据用途概述:
该数据集适用于手写识别研究、字符集开发、光学字符识别(OCR)系统训练等多种场景。研究人员可以通过此数据集进行各类字符的手写特征提取、分类算法验证等工作;教育机构可以利用数据集进行手写识别相关的教学和实验。此外,数据集也适合用于开发手写字符识别软件,帮助提高手写文本的数字化水平。
举例:
鲁科皮斯数据集包含乌克兰手写符号的图像数据,例如小写字母а的手写形式。每个符号都有详细的描述信息,包括字符的转写、名称、大小写、类型、边界坐标、尺寸和文件路径。例如,一个图像文件名为glyphs/a-1.png的记录可能如下所示:
- label: a
- transliter_kmu2010: a
- name: a
- is_uppercase: False
- type: italic
- is_alternate: False
- top: 20
- bottom: 180
- left: 30
- right: 170
- height: 160
- width: 140
- filename: glyphs/a-1.png