数据集概述
本数据集是早期英语书信语料库(CEEC-400)18世纪部分的第三个公开版本,是未出版的《早期英语书信扩展标注语料库》(TCEECE)的抽样提取内容,包含书信元数据、编码说明文档及语料库文件,为早期英语语言研究提供标注语料资源。
文件详解
- 文件名称:CEECES1-metadata.txt
- 文件格式:TXT
- 字段映射:包含LetterID(书信ID)、Collection(语料库)、Period(时期)、SenderID(发信人ID)、SenderFirstName(发信人名字)、SenderLastName(发信人姓氏)、SenderGender(发信人性别)、SenderCurrentRank(发信人当前身份)、SenderHighestRank(发信人最高身份)、SenderStatus(发信人状态)、SenderAge(发信人年龄)、SenderYearOfBirth(发信人出生年份)、SenderAgeGroup(发信人年龄组)、SenderRegion(发信人地区)、SenderSocialMob(发信人社会流动性)等元数据字段
- 文件名称:CEECES2-metadata.txt
- 文件格式:TXT
- 内容说明:CEECES2语料库的元数据文件,格式与CEECES1-metadata.txt一致
- 文件名称:Key to metadata codes in CEECES.pdf
- 文件格式:PDF
- 内容说明:CEECES元数据编码说明文档,解释元数据字段的编码规则
- 文件名称:CEECES-metadata.xlsx
- 文件格式:XLSX
- 内容说明:CEECES语料库的元数据表格文件
- 文件名称:TCEECES manual.pdf
- 文件格式:PDF
- 内容说明:TCEECES数据集使用手册,包含语料库编译、标准化、标注等详细信息
- 文件名称:TCEECES.zip
- 文件格式:ZIP
- 内容说明:TCEECES语料库的压缩包文件
数据来源
赫尔辛基大学语言系
适用场景
- 历史语言学研究:分析18世纪早期英语书信的语言特征与演变规律
- 社会语言学研究:探究不同社会身份(性别、身份、地区)发信人的语言使用差异
- 语料库语言学方法验证:用于测试早期英语语料库的标注技术与分析模型
- 数字人文研究:支撑早期英语书信文本的数字化分析与历史语境还原