数据集

Supplementary_material_5_Based_古东斯拉夫与现代斯拉夫语言距离测量实验结果数据

数据集概述

本数据集是基于语料库的语言距离测量实验结果，涵盖古东斯拉夫、现代东斯拉夫及现代标准斯拉夫语言变体。包含240个实验文件夹及1个汇总CSV文件，实验参数涉及主题反建模启发式、 Sørensen-Dice系数归一化、混合度量策略等，现代标准斯拉夫数据集还按不同规模占比（0.1、0.3、0.6、1）重复实验。

文件详解

汇总文件
文件名称：aggregated_results.csv
文件格式：CSV（逗号分隔）
字段映射介绍：含13列，包括实验ID、语料库类型、主题反建模标识、数据集占比、混合策略标识、混合类型、 Sørensen-Dice归一化标识、字母熵归一化标识、辅助度量类型、外群识别结果、外群分支长度、内群分支距离、分支差异值等。
实验文件夹（共240个，索引1-240）
每个文件夹含6个文件：3个分号分隔的CSV文件（记录语言变体对的单元级比较，含比较单元、度量名称、距离值）、1个TSV格式.info文件（记录分支长度及外群识别正确性）、1个.newick文件（UPGMA分类树结果）、1个.png文件（分类树可视化图）。

数据来源

论文“A hybrid approach to the small unannotated corpus-based language comparison and its application to the Old East Slavic charters”的补充材料5

适用场景

斯拉夫语言演化研究：分析古东斯拉夫与现代斯拉夫语言变体的距离关系，探究语言演化路径。
语料库语言距离测量方法验证：评估不同实验参数（如混合度量、归一化策略）对语言距离测量结果的影响。
语言分类准确性分析：通过外群识别结果验证实验方法对语言分类的正确性。
语料库规模影响研究：分析现代标准斯拉夫数据集不同规模占比对测量效率的作用。
语言变体亲缘关系可视化：利用Newick文件和PNG图构建斯拉夫语言变体的系统发育树。

数据与资源

14169775.zipZIP
88.69 MiB

下载

附加信息

字段	值
作者	Maxj
版本	1
数据集大小	88.69 MiB
最后更新	2025年12月28日
创建于	2025年12月28日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。