LAGT_Based_多源整合古希腊文本语料库_v4_1

数据集概述

本数据集为LAGT(lemmatized ancient Greek texts)古希腊文本语料库,整合自Perseus数字图书馆、First 1000 Years of Greek项目、GLAUx语料库及早期基督教文本子集,覆盖公元前8世纪至公元6世纪的文本。v4.1版本包含475+作者的1,958部作品、约3,580万原始文本词元,分为主表格数据集和单文档形态学数据两部分,支持古典语言学研究。

文件详解

  • 主表格数据集
  • 文件名称:LAGT_v4-1.parquet
  • 文件格式:PARQUET
  • 字段映射介绍:包含元数据与lemmatized过滤句子,可直接加载为Pandas DataFrame;字段包括作者ID(author_id)、文档ID(doc_id)、创作时间区间(not_before/not_after)、宗教起源(provenience)、lemmatized句子列表(lemmatized_sentences)、词元来源(lemmata_source)等
  • 元数据文件
  • 文件名称:LAGT_v4-1_metadata.csv
  • 文件格式:CSV
  • 字段映射介绍:包含author_id、doc_id、filename、author、title、source、lemmata_source、not_before、not_after、genre、provenience、wordcount、lemmatacount等元数据字段
  • 代码本文件
  • 文件名称:LAGT_v4-1_codebook.csv
  • 文件格式:CSV
  • 字段映射介绍:对数据集字段进行解释,如author_id(作者ID,基于TLG编码)、doc_id(作品ID,基于TLG编码)等
  • 形态学数据压缩包
  • 文件名称:sents_data_jsons.zip
  • 文件格式:ZIP
  • 字段映射介绍:包含单文档JSON形态学文件,每个文件以句子列表形式存储,句子包含token(词元)、lemma(词基)、simplified postag(简化词性)、positional index(位置索引)等标注

数据来源

Perseus Digital Library、First 1000 Years of Greek project、GLAUx corpus及早期基督教文本子集

适用场景

  • 古典语言学研究:通过lemmatized句子和形态学标注,分析古希腊文本的语法结构、词汇使用规律
  • 宗教文本对比分析:利用provenience字段区分异教、犹太教、基督教文本,研究不同宗教文本的语言特征差异
  • 文本年代学研究:基于not_before/not_after时间区间,探索古希腊文本语言风格随时间的演变
  • 多源语料库整合研究:对比不同来源(GLAUx/grecy)词元标注的差异,优化古希腊文本处理模型
  • 古典文献数字化应用:为古希腊文本的数字化检索、语义分析提供结构化语料支持
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 729.08 MiB
最后更新 2026年1月30日
创建于 2026年1月30日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。