数据集概述
本数据集为LAGT(lemmatized ancient Greek texts)古希腊文本语料库,整合自Perseus数字图书馆、First 1000 Years of Greek项目、GLAUx语料库及早期基督教文本子集,覆盖公元前8世纪至公元6世纪的文本。v4.1版本包含475+作者的1,958部作品、约3,580万原始文本词元,分为主表格数据集和单文档形态学数据两部分,支持古典语言学研究。
文件详解
- 主表格数据集
- 文件名称:
LAGT_v4-1.parquet
- 文件格式:PARQUET
- 字段映射介绍:包含元数据与lemmatized过滤句子,可直接加载为Pandas DataFrame;字段包括作者ID(author_id)、文档ID(doc_id)、创作时间区间(not_before/not_after)、宗教起源(provenience)、lemmatized句子列表(lemmatized_sentences)、词元来源(lemmata_source)等
- 元数据文件
- 文件名称:
LAGT_v4-1_metadata.csv
- 文件格式:CSV
- 字段映射介绍:包含author_id、doc_id、filename、author、title、source、lemmata_source、not_before、not_after、genre、provenience、wordcount、lemmatacount等元数据字段
- 代码本文件
- 文件名称:
LAGT_v4-1_codebook.csv
- 文件格式:CSV
- 字段映射介绍:对数据集字段进行解释,如author_id(作者ID,基于TLG编码)、doc_id(作品ID,基于TLG编码)等
- 形态学数据压缩包
- 文件名称:
sents_data_jsons.zip
- 文件格式:ZIP
- 字段映射介绍:包含单文档JSON形态学文件,每个文件以句子列表形式存储,句子包含token(词元)、lemma(词基)、simplified postag(简化词性)、positional index(位置索引)等标注
数据来源
Perseus Digital Library、First 1000 Years of Greek project、GLAUx corpus及早期基督教文本子集
适用场景
- 古典语言学研究:通过lemmatized句子和形态学标注,分析古希腊文本的语法结构、词汇使用规律
- 宗教文本对比分析:利用provenience字段区分异教、犹太教、基督教文本,研究不同宗教文本的语言特征差异
- 文本年代学研究:基于not_before/not_after时间区间,探索古希腊文本语言风格随时间的演变
- 多源语料库整合研究:对比不同来源(GLAUx/grecy)词元标注的差异,优化古希腊文本处理模型
- 古典文献数字化应用:为古希腊文本的数字化检索、语义分析提供结构化语料支持