-
Supplementary_material_5_Based_古东斯拉夫与现代斯拉夫语言距离测量实验结果数据
2025年12月28日 30 206 53
数据集概述 本数据集是基于语料库的语言距离测量实验结果,涵盖古东斯拉夫、现代东斯拉夫及现代标准斯拉夫语言变体。包含240个实验文件夹及1个汇总CSV文件,实验参数涉及主题反建模启发式、 Sørensen-Dice系数归一化、混合度量策略等,现代标准斯拉夫数据集还按不同规模占比(0.1、0.3、0.6、1)重复实验。 文件详解 汇总文件...
-
现代标准斯拉夫语支平行文本数据集
2025年12月22日 30 73 39
数据集概述 本数据集包含克罗地亚语、斯洛伐克语、斯洛文尼亚语三种现代标准斯拉夫语支的平行文本,以《约翰福音》为内容,通过平行文本设计抵消体裁影响,为语言比较研究提供基础数据。 文件详解 文件名称:Gospel.Croatian.txt;格式:TXT;内容:克罗地亚语版《约翰福音》文本,基于伊万·沙里奇的新约译本...
-
古东斯拉夫宪章语料库补充材料1
2025年12月13日 30 14 2
数据集概述 该数据集为古东斯拉夫宪章语料库的补充材料1,包含12世纪末至14世纪上半叶来自斯摩棱斯克、波拉茨克和诺夫哥罗德的9份历史法律文本。文本经预处理、人工分词后整合为单字符串,同时附数据声明文档,支持基于语料库的语言距离测量与聚类分析。 文件详解 文本文件(.txt格式,共9个):...



