HCD_Historical_Corpus_of_Dutch_词频统计数据_2023

数据集概述

本数据集为荷兰历史语料库(HCD)的词频统计数据,涵盖不同地区、世纪和体裁的词频分布情况。HCD是一个包含早期和晚期现代荷兰语的多体裁语料库,数据来源于2023年发表的相关学术论文,可用于荷兰历史语言学和文本分析研究。

文件详解

  • 文件名称:wordcount_overview.xlsx
  • 文件格式:XLSX
  • 字段映射介绍:包含荷兰历史语料库中按区域、世纪和体裁分类的词频统计信息,具体字段可参考语料库的分类维度(区域、世纪、体裁)及对应的词频数值。

数据来源

Van de Voorde, I., Rutten, G., Vosters, R., Van der Wal, M., & Vandenbussche, W. (2023)发表的论文《Historical Corpus of Dutch: A new multi-genre corpus of Early and Late Modern Dutch》

适用场景

  • 荷兰历史语言学研究: 分析不同历史时期、区域和体裁的荷兰语文本词频特征与语言演变规律。
  • 文本体裁分类研究: 基于词频分布探索早期和晚期现代荷兰语不同体裁的文本特征差异。
  • 历史语料库数据分析: 为荷兰历史语料库(HCD)的进一步挖掘和应用提供基础词频统计支持。
  • NLP语料库构建参考: 为多语言历史语料库的词频统计和分类方法提供实践案例。
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 0.01 MiB
最后更新 2026年1月18日
创建于 2026年1月18日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。