数据集概述
本数据集包含1994年夏秋季收集的在线手写单词数据,由奈梅亨大学手写小组与惠普布里斯托尔合作完成,惠普捐赠给国际Unipen基金会。数据包含手写单词的笔尖坐标、压力等信息及单独标记的字符,补充了Unipen数据集未涵盖的内容。
文件详解
该数据集由多个文件和目录组成,具体说明如下:
- 报告文件:
- plucoll-1994-2023.pdf: PDF格式,1996年提交给惠普的报告,2023年翻新为PDF,记录当时35名写作者数据,最终共46名写作者。
- plucoll-1994-2023.txt: TXT格式,PDF报告的纯文本版本。
- Unipen格式数据文件:
- plucoll-2001.tgz: TGZ压缩包,包含Unipen格式的单词笔尖坐标文件(.dat)和.png图像。
- plucoll-2001-tgz.lst: TXT格式,说明文件内容,包含46名写作者,每名写作者210个孤立单词。
- 目录结构示例: ./plucoll/[写作者名]/[set1.dat等文件]
- 字符标记数据文件:
- Plucoll-hwr-lbl.tgz: TGZ压缩包,包含纯ASCII格式的坐标文件(.hwr)和对应字符标记文件(.lbl)。
- Plucoll-hwr-lbl-tgz.txt: TXT格式,说明文件内容。
- 字段示例(.hwr文件): x、y、z(压力,0=提笔,100=落笔)坐标序列。
- 字段示例(.lbl文件): 字符、起始索引、结束索引、置信度(如"z 12 18 0.95")。
- 目录结构示例: ./Plucoll-hwr-lbl/[写作者名]/[set1]/[文件名.hwr/.lbl]
- 简化字符坐标文件:
- PluColl-Letters-for-CogniGron.tgz: TGZ压缩包,仅包含(x,y)坐标的简化ASCII文件(.xy),共三十一万一千九百二十五个字符。
- Plucoll-Letters-for-CogniGron-tgz.lst: TXT格式,说明该数据集用于IOP关于生物启发式抽搐集成轨迹控制的文章。
- 文件名标签: ioff(字符在原.hwr文件中的起始坐标索引)、npts((x,y)点数量)。
- 目录结构示例: ./Letters/[字符]/[Letter-字符-标签.xy]
数据来源
国际Unipen基金会
适用场景
- 手写识别研究: 用于训练和测试在线手写单词及字符识别模型。
- 生物力学分析: 分析手写过程中的笔尖压力、轨迹等生物力学特征。
- 模式识别算法开发: 支持轨迹控制、字符分割等模式识别算法的研究与验证。
- 认知科学研究: 探究手写行为的认知过程及个体差异。