古东斯拉夫宪章语料库补充材料1

数据集概述

该数据集为古东斯拉夫宪章语料库的补充材料1,包含12世纪末至14世纪上半叶来自斯摩棱斯克、波拉茨克和诺夫哥罗德的9份历史法律文本。文本经预处理、人工分词后整合为单字符串,同时附数据声明文档,支持基于语料库的语言距离测量与聚类分析。

文件详解

  • 文本文件(.txt格式,共9个):
  • 具体文件:selco.Polotsk.txt、izyaslav.Polotsk.txt、gerden.Polotsk.txt、aleksandr.Novgorod.txt、jaroslav.Novgorod.txt、zemlia.Polotsk.txt、bishop.Polotsk.txt、kolokol.Smolensk.txt等
  • 内容:经预处理的古东斯拉夫宪章文本,包含原始语言内容
  • 数据声明文件:
  • 文件名称:DATA_STATEMENT.pdf
  • 文件格式:PDF
  • 内容:数据集相关的数据声明文档

适用场景

  • 历史语言学研究:分析古东斯拉夫不同地区(斯摩棱斯克、波拉茨克、诺夫哥罗德)语言变体的差异
  • 语料库语言学应用:基于语料库测量语言距离并进行聚类分析
  • 中世纪法律文本研究:探究古东斯拉夫宪章的语言特征与内容结构
  • 计算语言学实验:验证混合方法在小样本无标注语料语言比较中的效果
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 0.21 MiB
最后更新 2025年12月13日
创建于 2025年12月13日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。