数据集概述
本数据集基于Martin Mueller的语料库《莎士比亚及其同代人》,记录了该时期仅在两部戏剧中共同出现的四元组(至少四个词的序列)信息。包含3个文件,核心内容为戏剧间共享四元组的关联数据,可用于分析早期现代戏剧的文本关联与作者风格特征。
文件详解
- shcshareduniquetetragramsplus-sheet2.csv
- 文件格式:CSV
- 字段映射介绍:包含play1(戏剧1编号)、play2(戏剧2编号)、replength(四元组长度)、repstring(四元组字符串)、title1(戏剧1标题)、title2(戏剧2标题)等字段
- shcshareduniquetetragramsplus-sheet1.csv
- 文件格式:CSV
- 字段映射介绍:包含play1(戏剧1编号)、play2(戏剧2编号)、repcount(共享四元组数量)、repcounta-score(共享得分)、author1(作者1)、author2(作者2)、titel1(戏剧1标题)、title2(戏剧2标题)等字段
- shcshareduniquetetragramsplus.xlsx
- 文件格式:XLSX
- 字段映射介绍:整合了上述CSV文件的内容,包含早期现代戏剧间共享唯一四元组的关联数据
数据来源
Martin Mueller的语料库《Shakespeare His Contemporaries》
适用场景
- 早期现代戏剧文本关联分析: 通过共享四元组数据研究戏剧间的文本相似性与可能的影响关系
- 作者归属研究: 利用共享四元组的数量与得分,辅助分析戏剧作者的风格特征与归属问题
- 戏剧年代考证: 基于共享四元组的分布特征,为早期现代戏剧的创作年代提供参考依据
- 文学流派研究: 分析特定流派戏剧间共享四元组的共性,探究流派风格的文本表现