数据集概述
本数据集是2022年版EDCS铭文数据,包含经清洗和精简的537,262条拉丁铭文记录,由古地中海社会动力学项目(SDAM)为铭文趋势定量研究创建。相比2021版,新增36,726条铭文,优化属性结构后保留27个属性,文件大小约465.5MB,存储为JSON格式。
文件详解
- 文件名称:EDCS_text_cleaned_2022-09-12.json
- 文件格式:JSON
- 字段映射介绍:包含27个属性,涵盖原始及精简数据;属性优化包括名称标准化(如
Material改为material)、移除冗余属性(如start_yr)、新增清洗后文本属性(如clean_text_conservative),具体字段可参考元数据文件。
数据来源
Epigraphic Database Clauss Slaby(EDCS)
适用场景
- 古代地中海社会趋势分析: 基于铭文数据定量研究古地中海地区的社会动态、文化特征及时代变迁。
- 拉丁铭文数据挖掘: 利用标准化属性开展铭文内容的文本分析、主题建模等研究。
- 历史数据对比研究: 对比2021版与2022版数据集的属性变化及新增铭文,分析数据清洗流程对研究结果的影响。
- 学术研究数据支撑: 为古代史、古典学领域的铭文相关研究提供结构化数据基础。