数据集概述
本数据集为荷兰历史语料库(HCD)的词频统计数据,涵盖不同地区、世纪和体裁的词频分布情况。HCD是一个包含早期和晚期现代荷兰语的多体裁语料库,数据来源于2023年发表的相关学术论文,可用于荷兰历史语言学和文本分析研究。
文件详解
- 文件名称:wordcount_overview.xlsx
- 文件格式:XLSX
- 字段映射介绍:包含荷兰历史语料库中按区域、世纪和体裁分类的词频统计信息,具体字段可参考语料库的分类维度(区域、世纪、体裁)及对应的词频数值。
数据来源
Van de Voorde, I., Rutten, G., Vosters, R., Van der Wal, M., & Vandenbussche, W. (2023)发表的论文《Historical Corpus of Dutch: A new multi-genre corpus of Early and Late Modern Dutch》
适用场景
- 荷兰历史语言学研究: 分析不同历史时期、区域和体裁的荷兰语文本词频特征与语言演变规律。
- 文本体裁分类研究: 基于词频分布探索早期和晚期现代荷兰语不同体裁的文本特征差异。
- 历史语料库数据分析: 为荷兰历史语料库(HCD)的进一步挖掘和应用提供基础词频统计支持。
- NLP语料库构建参考: 为多语言历史语料库的词频统计和分类方法提供实践案例。