nikopartanen_Based_古芬兰文学语料随机抽取手动词形还原数据集_V1_0

数据集概述

本数据集包含从芬兰古文学语料库中随机抽取并手动完成词形还原的句子。数据覆盖部分历史年代,1690、1720、1740、1770年等年代尚未完成词形还原,且存在部分年代语料缺失。数据集目前含1个压缩文件,旨在为古芬兰文学语言研究提供标注资源,后续计划补充完善缺失内容。

文件详解

  • 文件名称:nikopartanen/old-literary-finnish-lemmatization-1.0.zip
  • 文件格式:ZIP(压缩文件)
  • 字段映射介绍:压缩包内包含古芬兰文学语料的手动词形还原数据,具体字段未通过预览明确,推测包含原始句子文本及对应词形还原标注结果。

数据来源

芬兰语言研究所(Institute for the Languages of Finland)2013年发布的古芬兰文学语料库(Corpus of Old Literary Finnish),由芬兰语言银行(The Language Bank of Finland)提供

适用场景

  • 古芬兰语言研究: 分析古芬兰文学文本的词形变化规律与语言特征。
  • 历史语言学研究: 探究芬兰语言在不同历史时期的演变轨迹。
  • 自然语言处理模型训练: 为古芬兰语文本处理工具(如词形还原模型)提供标注训练数据。
  • 语料库补充完善: 支持研究人员对缺失年代语料进行补充标注,推进数据集完整性建设。
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 0.08 MiB
最后更新 2026年1月13日
创建于 2026年1月13日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。