古典与文学汉语学习者可靠词汇表原始频率数据集

数据集概述

该数据集包含古典与文学汉语学习者词汇表的原始频率计数,基于三个语料库(Micheal Loewe早期中文文本、正史、六部小说)构建,为汉语词汇研究提供基础数据支持。

文件详解

  • 压缩包文件:
  • classical_chinese_learners_vocabularies_raw_frequencies.zip:包含三个语料库的子文件夹,每个子文件夹内有:
  • xx_corpus.csv:文本来源、版本、词符及类型计数列表
  • xx_freq_1-1.csv:单字频率与计数
  • xx_freq_1-4.csv:1-4字词频率与计数(基于《汉语大词典》定义)
  • xx_freq_2-4.csv:2-4字词频率与计数
  • 分析结果文件:
  • pca_zhengshi_vs_loewe_vs_xiaoshuo.html:交互式主成分分析(PCA)结果,展示三个语料库文本的词汇分布特征

适用场景

  • 汉语词汇研究:分析古典与文学汉语词汇的频率分布规律
  • 语言教学应用:为汉语学习者词汇表的编制提供数据支撑
  • 语料库语言学:对比不同类型古典汉语文本的词汇使用差异
  • 数据分析方法:探索主成分分析在语言数据可视化中的应用
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 14.04 MiB
最后更新 2025年12月16日
创建于 2025年12月16日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。