鲁科皮斯数据集

鲁科皮斯数据集 数据来源:互联网公开数据 标签:乌克兰,手写符号,字符集,图像数据,机器学习,光学字符识别,图像处理 数据概述: 本数据集包含约1000个(目前数量)乌克兰手写符号,每张符号图像以PNG格式保存,尺寸为200x200像素。图像信息记录在glyphs.csv文件中,文件包含以下字段: - string label: 小写西里尔字母字符,代表图片中的符号。 - string transliter_kmu2010: 根据2010年1月27日乌克兰内阁决议的西里尔字母转写形式。软符号用' '表示,и和й在该系统中均显示为y。 - string name: 该符号的唯一名称,软符号用soft_sign表示。 - bool is_uppercase: 确定字母的大小写。 - category type: 字符类型,分为italic(手写斜体)和printed(手写仿印刷体)两种。 - category is_alternate: 确定是否使用了较少使用的书写方式。 - number top, bottom, left, right: 符号在200x200图像中的精确边界,单位为像素。这些数值在需要裁剪图像时会用到。 - number height, width: 符号的高度和宽度,单位为像素。 - string filename: 图像文件的地址,格式为glyphs/[name]-[number].png。 数据用途概述: 该数据集适用于手写识别研究、字符集开发、光学字符识别(OCR)系统训练等多种场景。研究人员可以通过此数据集进行各类字符的手写特征提取、分类算法验证等工作;教育机构可以利用数据集进行手写识别相关的教学和实验。此外,数据集也适合用于开发手写字符识别软件,帮助提高手写文本的数字化水平。 举例: 鲁科皮斯数据集包含乌克兰手写符号的图像数据,例如小写字母а的手写形式。每个符号都有详细的描述信息,包括字符的转写、名称、大小写、类型、边界坐标、尺寸和文件路径。例如,一个图像文件名为glyphs/a-1.png的记录可能如下所示: - label: a - transliter_kmu2010: a - name: a - is_uppercase: False - type: italic - is_alternate: False - top: 20 - bottom: 180 - left: 30 - right: 170 - height: 160 - width: 140 - filename: glyphs/a-1.png

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 1.22 MiB
最后更新 2025年4月14日
创建于 2025年4月14日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。