EMDrep99_Martin_Mueller语料库_近代早期戏剧短语重复研究数据

数据集概述

本数据集源自Martin Mueller的“Shakespeare His Contemporaries”语料库,包含近代早期戏剧中剧作对的短语重复分析结果,通过多种n-gram加权指标展示剧作间的重复特征,涉及创作时间、作者、文本长度及重复计数等核心信息,共包含2个文件。

文件详解

  • EMDrep99summary2-chronological.xlsx
  • 文件格式:XLSX
  • 字段映射介绍:包含近代早期戏剧剧作对的短语重复数据,字段涵盖date1(剧作1创作年份)、date2(剧作2创作年份)、timelog2(时间差相关指标)、sameauthor(是否同作者标识)、title1(剧作1标题)、title2(剧作2标题)、combinedlength(文本总长度)、random10k(随机10k词重复基准)、repcount10l(10词级重复计数)、weighted4(4元语法加权值)、weighted2(2元语法加权值)等。
  • EMDrep99summary2-chronological.csv
  • 文件格式:CSV
  • 字段映射介绍:与XLSX文件内容一致,为结构化文本格式,字段同XLSX文件,包含date1、date2、timelog2、sameauthor、title1、title2、combinedlength、random10k、repcount10l、weighted4、weighted2等。

数据来源

Martin Mueller的语料库“Shakespeare His Contemporaries”

适用场景

  • 戏剧文学文本分析: 研究近代早期戏剧作品间的短语传承与互文关系。
  • 作者归属研究: 通过短语重复特征分析剧作间的作者关联。
  • 戏剧创作时间线验证: 结合创作年份与重复指标探究戏剧创作的时间规律。
  • 文学语料库计量研究: 利用n-gram加权指标开展戏剧文本的量化分析。
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 0.28 MiB
最后更新 2026年1月15日
创建于 2026年1月15日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。