早期英语书信扩展抽样语料库第一部分2021

数据集概述

本数据集是“早期英语书信语料库(CEEC-400)”18世纪部分的首个公开版本,属于完整CEECES的组成部分。2022年4月更新版本包含语料库文件、元数据及配套文档,元数据提供TSV和Excel格式,新增元数据编码说明。

文件详解

  • CEECES1-metadata.xlsx:Excel格式,包含书信元数据,字段示例:LetterID(书信ID)、SenderGender(发信人性别)、SenderRegion(发信人地区)等
  • Key to metadata codes in CEECES.pdf:PDF格式,元数据编码说明文档
  • CEECES1-metadata.txt:TXT格式,纯文本元数据文件,字段与Excel版一致
  • CEECES 1 manual_v2.pdf:PDF格式,更新后的语料库使用手册
  • CEECES-1.zip:压缩包格式,包含语料库文本文件

数据来源

赫尔辛基大学语言系

适用场景

  • 历史语言学研究:分析18世纪英语书信的语言特征演变
  • 社会历史研究:通过书信元数据探究18世纪社会阶层、性别与地域通信模式
  • 语料库语言学方法验证:测试早期英语文本的自动处理与分析算法
  • 数字人文教学:作为早期英语文献数字化研究的教学案例数据
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 4.41 MiB
最后更新 2025年12月7日
创建于 2025年12月7日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。