数据集

LAGT_Based_多源整合古希腊文本语料库_v4_1

数据集概述

本数据集为LAGT（lemmatized ancient Greek texts）古希腊文本语料库，整合自Perseus数字图书馆、First 1000 Years of Greek项目、GLAUx语料库及早期基督教文本子集，覆盖公元前8世纪至公元6世纪的文本。v4.1版本包含475+作者的1,958部作品、约3,580万原始文本词元，分为主表格数据集和单文档形态学数据两部分，支持古典语言学研究。

文件详解

主表格数据集
文件名称：LAGT_v4-1.parquet
文件格式：PARQUET
字段映射介绍：包含元数据与lemmatized过滤句子，可直接加载为Pandas DataFrame；字段包括作者ID（author_id）、文档ID（doc_id）、创作时间区间（not_before/not_after）、宗教起源（provenience）、lemmatized句子列表（lemmatized_sentences）、词元来源（lemmata_source）等
元数据文件
文件名称：LAGT_v4-1_metadata.csv
文件格式：CSV
字段映射介绍：包含author_id、doc_id、filename、author、title、source、lemmata_source、not_before、not_after、genre、provenience、wordcount、lemmatacount等元数据字段
代码本文件
文件名称：LAGT_v4-1_codebook.csv
文件格式：CSV
字段映射介绍：对数据集字段进行解释，如author_id（作者ID，基于TLG编码）、doc_id（作品ID，基于TLG编码）等
形态学数据压缩包
文件名称：sents_data_jsons.zip
文件格式：ZIP
字段映射介绍：包含单文档JSON形态学文件，每个文件以句子列表形式存储，句子包含token（词元）、lemma（词基）、simplified postag（简化词性）、positional index（位置索引）等标注

数据来源

Perseus Digital Library、First 1000 Years of Greek project、GLAUx corpus及早期基督教文本子集

适用场景

古典语言学研究：通过lemmatized句子和形态学标注，分析古希腊文本的语法结构、词汇使用规律
宗教文本对比分析：利用provenience字段区分异教、犹太教、基督教文本，研究不同宗教文本的语言特征差异
文本年代学研究：基于not_before/not_after时间区间，探索古希腊文本语言风格随时间的演变
多源语料库整合研究：对比不同来源（GLAUx/grecy）词元标注的差异，优化古希腊文本处理模型
古典文献数字化应用：为古希腊文本的数字化检索、语义分析提供结构化语料支持

数据与资源

13889714.zipZIP
729.08 MiB

下载

附加信息

字段	值
作者	Maxj
版本	1
数据集大小	729.08 MiB
最后更新	2026年1月30日
创建于	2026年1月30日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。