早期英语书信扩展标注语料库抽样数据集

数据集概述

本数据集是早期英语书信语料库(CEEC-400)18世纪部分的第三个公开版本,是未出版的《早期英语书信扩展标注语料库》(TCEECE)的抽样提取内容,包含书信元数据、编码说明文档及语料库文件,为早期英语语言研究提供标注语料资源。

文件详解

  • 文件名称:CEECES1-metadata.txt
  • 文件格式:TXT
  • 字段映射:包含LetterID(书信ID)、Collection(语料库)、Period(时期)、SenderID(发信人ID)、SenderFirstName(发信人名字)、SenderLastName(发信人姓氏)、SenderGender(发信人性别)、SenderCurrentRank(发信人当前身份)、SenderHighestRank(发信人最高身份)、SenderStatus(发信人状态)、SenderAge(发信人年龄)、SenderYearOfBirth(发信人出生年份)、SenderAgeGroup(发信人年龄组)、SenderRegion(发信人地区)、SenderSocialMob(发信人社会流动性)等元数据字段
  • 文件名称:CEECES2-metadata.txt
  • 文件格式:TXT
  • 内容说明:CEECES2语料库的元数据文件,格式与CEECES1-metadata.txt一致
  • 文件名称:Key to metadata codes in CEECES.pdf
  • 文件格式:PDF
  • 内容说明:CEECES元数据编码说明文档,解释元数据字段的编码规则
  • 文件名称:CEECES-metadata.xlsx
  • 文件格式:XLSX
  • 内容说明:CEECES语料库的元数据表格文件
  • 文件名称:TCEECES manual.pdf
  • 文件格式:PDF
  • 内容说明:TCEECES数据集使用手册,包含语料库编译、标准化、标注等详细信息
  • 文件名称:TCEECES.zip
  • 文件格式:ZIP
  • 内容说明:TCEECES语料库的压缩包文件

数据来源

赫尔辛基大学语言系

适用场景

  • 历史语言学研究:分析18世纪早期英语书信的语言特征与演变规律
  • 社会语言学研究:探究不同社会身份(性别、身份、地区)发信人的语言使用差异
  • 语料库语言学方法验证:用于测试早期英语语料库的标注技术与分析模型
  • 数字人文研究:支撑早期英语书信文本的数字化分析与历史语境还原
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 85.77 MiB
最后更新 2025年12月4日
创建于 2025年12月4日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。