数据集概述
本数据集包含2000余种语言的相关数据,用于验证语言使用者数量及非母语使用者比例对语言结构的影响。研究结果显示,语言使用者数量与信息论复杂度(如熵率)存在关联,但非母语使用者比例与形态学或信息论复杂度无显著相关性。数据集支持语言结构影响因素的实证分析。
文件详解
- README_for_Stata_files.ME
- 文件格式:ME
- 字段映射介绍:包含Stata文件使用说明,指导通过"_master.do"文件复现数据,提及需原始文件执行,或通过导入Excel文件(需注释"do cr_data"行)进行分析,同时说明分析环境为18核虚拟机器。
- Stata_files.zip
- 文件格式:ZIP
- 字段映射介绍:压缩文件,包含Stata相关数据文件,具体内容需解压后查看。
- data_table.xlsx
- 文件格式:XLSX
- 字段映射介绍:数据表格文件,包含2000余种语言的使用者数量、非母语使用者比例、形态学复杂度、信息论复杂度(熵率)等核心数据字段。
数据来源
论文“Language structure is influenced by the number of speakers but seemingly not by the proportion of non-native speakers”
适用场景
- 语言结构影响因素分析: 研究使用者数量、非母语使用者比例与语言形态学及信息论复杂度的关系。
- 语言学实证研究: 为语言生态位假说提供大规模语言样本的实证验证。
- 信息论与语言学交叉研究: 分析语言熵率等信息论指标与使用者数量的关联。
- 语言复杂性研究: 探究语言语法结构及统计复杂性的影响因素。