数据集概述
本数据集包含从芬兰古文学语料库中随机抽取并手动完成词形还原的句子。数据覆盖部分历史年代,1690、1720、1740、1770年等年代尚未完成词形还原,且存在部分年代语料缺失。数据集目前含1个压缩文件,旨在为古芬兰文学语言研究提供标注资源,后续计划补充完善缺失内容。
文件详解
- 文件名称:nikopartanen/old-literary-finnish-lemmatization-1.0.zip
- 文件格式:ZIP(压缩文件)
- 字段映射介绍:压缩包内包含古芬兰文学语料的手动词形还原数据,具体字段未通过预览明确,推测包含原始句子文本及对应词形还原标注结果。
数据来源
芬兰语言研究所(Institute for the Languages of Finland)2013年发布的古芬兰文学语料库(Corpus of Old Literary Finnish),由芬兰语言银行(The Language Bank of Finland)提供
适用场景
- 古芬兰语言研究: 分析古芬兰文学文本的词形变化规律与语言特征。
- 历史语言学研究: 探究芬兰语言在不同历史时期的演变轨迹。
- 自然语言处理模型训练: 为古芬兰语文本处理工具(如词形还原模型)提供标注训练数据。
- 语料库补充完善: 支持研究人员对缺失年代语料进行补充标注,推进数据集完整性建设。