数据集概述
本数据集源自Martin Mueller的“Shakespeare His Contemporaries”语料库,包含近代早期戏剧中剧作对的短语重复分析结果,通过多种n-gram加权指标展示剧作间的重复特征,涉及创作时间、作者、文本长度及重复计数等核心信息,共包含2个文件。
文件详解
- EMDrep99summary2-chronological.xlsx
- 文件格式:XLSX
- 字段映射介绍:包含近代早期戏剧剧作对的短语重复数据,字段涵盖date1(剧作1创作年份)、date2(剧作2创作年份)、timelog2(时间差相关指标)、sameauthor(是否同作者标识)、title1(剧作1标题)、title2(剧作2标题)、combinedlength(文本总长度)、random10k(随机10k词重复基准)、repcount10l(10词级重复计数)、weighted4(4元语法加权值)、weighted2(2元语法加权值)等。
- EMDrep99summary2-chronological.csv
- 文件格式:CSV
- 字段映射介绍:与XLSX文件内容一致,为结构化文本格式,字段同XLSX文件,包含date1、date2、timelog2、sameauthor、title1、title2、combinedlength、random10k、repcount10l、weighted4、weighted2等。
数据来源
Martin Mueller的语料库“Shakespeare His Contemporaries”
适用场景
- 戏剧文学文本分析: 研究近代早期戏剧作品间的短语传承与互文关系。
- 作者归属研究: 通过短语重复特征分析剧作间的作者关联。
- 戏剧创作时间线验证: 结合创作年份与重复指标探究戏剧创作的时间规律。
- 文学语料库计量研究: 利用n-gram加权指标开展戏剧文本的量化分析。