数据集概述
本数据集是基于语料库的语言距离测量实验结果,涵盖古东斯拉夫、现代东斯拉夫及现代标准斯拉夫语言变体。包含240个实验文件夹及1个汇总CSV文件,实验参数涉及主题反建模启发式、 Sørensen-Dice系数归一化、混合度量策略等,现代标准斯拉夫数据集还按不同规模占比(0.1、0.3、0.6、1)重复实验。
文件详解
- 汇总文件
- 文件名称:aggregated_results.csv
- 文件格式:CSV(逗号分隔)
- 字段映射介绍:含13列,包括实验ID、语料库类型、主题反建模标识、数据集占比、混合策略标识、混合类型、 Sørensen-Dice归一化标识、字母熵归一化标识、辅助度量类型、外群识别结果、外群分支长度、内群分支距离、分支差异值等。
- 实验文件夹(共240个,索引1-240)
- 每个文件夹含6个文件:3个分号分隔的CSV文件(记录语言变体对的单元级比较,含比较单元、度量名称、距离值)、1个TSV格式.info文件(记录分支长度及外群识别正确性)、1个.newick文件(UPGMA分类树结果)、1个.png文件(分类树可视化图)。
数据来源
论文“A hybrid approach to the small unannotated corpus-based language comparison and its application to the Old East Slavic charters”的补充材料5
适用场景
- 斯拉夫语言演化研究:分析古东斯拉夫与现代斯拉夫语言变体的距离关系,探究语言演化路径。
- 语料库语言距离测量方法验证:评估不同实验参数(如混合度量、归一化策略)对语言距离测量结果的影响。
- 语言分类准确性分析:通过外群识别结果验证实验方法对语言分类的正确性。
- 语料库规模影响研究:分析现代标准斯拉夫数据集不同规模占比对测量效率的作用。
- 语言变体亲缘关系可视化:利用Newick文件和PNG图构建斯拉夫语言变体的系统发育树。