Supplementary_material_5_Based_古东斯拉夫与现代斯拉夫语言距离测量实验结果数据

数据集概述

本数据集是基于语料库的语言距离测量实验结果,涵盖古东斯拉夫、现代东斯拉夫及现代标准斯拉夫语言变体。包含240个实验文件夹及1个汇总CSV文件,实验参数涉及主题反建模启发式、 Sørensen-Dice系数归一化、混合度量策略等,现代标准斯拉夫数据集还按不同规模占比(0.1、0.3、0.6、1)重复实验。

文件详解

  • 汇总文件
  • 文件名称:aggregated_results.csv
  • 文件格式:CSV(逗号分隔)
  • 字段映射介绍:含13列,包括实验ID、语料库类型、主题反建模标识、数据集占比、混合策略标识、混合类型、 Sørensen-Dice归一化标识、字母熵归一化标识、辅助度量类型、外群识别结果、外群分支长度、内群分支距离、分支差异值等。
  • 实验文件夹(共240个,索引1-240)
  • 每个文件夹含6个文件:3个分号分隔的CSV文件(记录语言变体对的单元级比较,含比较单元、度量名称、距离值)、1个TSV格式.info文件(记录分支长度及外群识别正确性)、1个.newick文件(UPGMA分类树结果)、1个.png文件(分类树可视化图)。

数据来源

论文“A hybrid approach to the small unannotated corpus-based language comparison and its application to the Old East Slavic charters”的补充材料5

适用场景

  • 斯拉夫语言演化研究:分析古东斯拉夫与现代斯拉夫语言变体的距离关系,探究语言演化路径。
  • 语料库语言距离测量方法验证:评估不同实验参数(如混合度量、归一化策略)对语言距离测量结果的影响。
  • 语言分类准确性分析:通过外群识别结果验证实验方法对语言分类的正确性。
  • 语料库规模影响研究:分析现代标准斯拉夫数据集不同规模占比对测量效率的作用。
  • 语言变体亲缘关系可视化:利用Newick文件和PNG图构建斯拉夫语言变体的系统发育树。
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 88.69 MiB
最后更新 2025年12月28日
创建于 2025年12月28日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。