Language_Non_native_Based语言结构与使用者数量关系研究数据

数据集概述

本数据集包含2000余种语言的相关数据,用于验证语言使用者数量及非母语使用者比例对语言结构的影响。研究结果显示,语言使用者数量与信息论复杂度(如熵率)存在关联,但非母语使用者比例与形态学或信息论复杂度无显著相关性。数据集支持语言结构影响因素的实证分析。

文件详解

  • README_for_Stata_files.ME
  • 文件格式:ME
  • 字段映射介绍:包含Stata文件使用说明,指导通过"_master.do"文件复现数据,提及需原始文件执行,或通过导入Excel文件(需注释"do cr_data"行)进行分析,同时说明分析环境为18核虚拟机器。
  • Stata_files.zip
  • 文件格式:ZIP
  • 字段映射介绍:压缩文件,包含Stata相关数据文件,具体内容需解压后查看。
  • data_table.xlsx
  • 文件格式:XLSX
  • 字段映射介绍:数据表格文件,包含2000余种语言的使用者数量、非母语使用者比例、形态学复杂度、信息论复杂度(熵率)等核心数据字段。

数据来源

论文“Language structure is influenced by the number of speakers but seemingly not by the proportion of non-native speakers”

适用场景

  • 语言结构影响因素分析: 研究使用者数量、非母语使用者比例与语言形态学及信息论复杂度的关系。
  • 语言学实证研究: 为语言生态位假说提供大规模语言样本的实证验证。
  • 信息论与语言学交叉研究: 分析语言熵率等信息论指标与使用者数量的关联。
  • 语言复杂性研究: 探究语言语法结构及统计复杂性的影响因素。
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 0.26 MiB
最后更新 2026年1月19日
创建于 2026年1月15日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。