数据集概述
本数据集是论文“Broad-scale patterns in the distribution of ethnic names in the Neo-Assyrian Oracc corpus”的关联表格与列表,包含8个文件,涉及族名分布的语义分析、拼写标准化、文本类型分类等内容,用于支撑新亚述Oracc语料库中族名分布模式的研究。
文件详解
- 文件名称:Readme.md
- 文件格式:MD
- 字段映射介绍:说明仓库内容,包括各文件的功能描述,如genre_identifications.json的标签简化规则、EN_pmi_by_genre.zip的族名排名列表等
- 文件名称:general_metadata.csv
- 文件格式:CSV
- 字段映射介绍:未提供详细字段,推测为数据集的元数据信息
- 文件名称:EN_pmi_by_genre.zip
- 文件格式:ZIP
- 字段映射介绍:压缩包内包含多个.tsv文件,按简化文本类型标签提供族名术语的前十排名列表
- 文件名称:EN_pmi_database - pmi_en_gn_inverse_indices.tsv
- 文件格式:TSV
- 字段映射介绍:包含词汇(如māru[son]N)、规模(如36)及族名术语与对应数值的列表(如('Ṭabilaya[of-Ṭabilu]EN', '0.013'))
- 文件名称:pmi_inverse_indices_per_ruler_table.tsv
- 文件格式:TSV
- 字段映射介绍:包含不同统治者(如ADAD-NERARI-II、TUKULTI-NINURTA-II等)对应的族名术语数据
- 文件名称:EN_redundancies_level_1.tsv
- 文件格式:TSV
- 字段映射介绍:列出新亚述Oracc语料库中族名术语的拼写形式及其标准化方式
- 文件名称:EN_pmi_database - pmi_en_gn_counts.tsv
- 文件格式:TSV
- 字段映射介绍:未提供完整预览,推测为族名术语的计数统计表格
- 文件名称:genre_identifications.json
- 文件格式:JSON
- 字段映射介绍:字典结构,记录Oracc文本类型标签如何简化为统一标签系统,包含UNCERTAIN、ADMINISTRATIVE-LETTER等标签
数据来源
论文“Broad-scale patterns in the distribution of ethnic names in the Neo-Assyrian Oracc corpus”
适用场景
- 历史语言学研究:分析新亚述时期族名的分布特征与语言规律
- 文本类型分类研究:基于简化标签系统探究不同文本类型中族名的使用差异
- 族名语义分析:利用PMI数据研究族名术语的语义关联与重要性排序
- 拼写标准化研究:通过族名拼写的 harmonization 过程分析古文字的书写规范
- 历史文化研究:结合统治者维度的族名数据,探究新亚述时期的族群关系与政治背景