数据集概述
本数据集为Poesi.as网站的诗歌语料库,包含以西班牙语为主的诗歌作品,覆盖21世纪及以前的创作,总计25,187首诗歌、7,918,679个词汇。提供诗歌文本JSON文件、作者信息CSV文件及公共领域诗歌提取脚本,支持西班牙语文学相关研究与分析。
文件详解
- 主数据集压缩包
- 文件名称:linhd-postdata/poesi.as-v1.0.0.zip
- 文件格式:ZIP
- 内容说明:包含核心诗歌数据文件、作者信息文件及数据处理脚本
- 诗歌语料JSON文件
- 文件名称:poesias_corpora.json
- 文件格式:JSON
- 内容说明:用于生成文本文件的诗歌语料主文件,包含诗歌文本内容
- 古西班牙语诗歌JSON文件
- 文件名称:poesias_corpora_old_spanish.json
- 文件格式:JSON
- 内容说明:包含Alfonso X创作的古西班牙语诗歌,未纳入语料库文件夹,仍在处理中
- 作者信息CSV文件
- 文件名称:authors.csv
- 文件格式:CSV
- 内容说明:提供20世纪及更早作者的调和信息,含VIAF、BnF、BNE、LoC、ISNI标识符,生卒日期、性别等Wikidata信息
- 公共领域提取脚本
- 文件名称:extract.py
- 文件格式:Python脚本
- 内容说明:可指定作者逝世年限(默认80年,符合西班牙版权法)生成公共领域诗歌JSON文件
数据来源
Poesi.as网站(www.poesi.as)
适用场景
- 西班牙语文学研究: 分析21世纪及以前西班牙语诗歌的主题、风格与创作趋势
- 作者信息挖掘: 利用authors.csv中的标识符与元数据,研究诗人的生平背景与创作关联
- 文本语料库构建: 基于JSON文件构建标准化西班牙语诗歌语料库,支持NLP模型训练
- 版权合规应用: 通过extract.py脚本筛选公共领域诗歌,用于无版权风险的文学传播与分析
- 古西班牙语语言研究: 借助古西班牙语诗歌文件,探究语言演变与历史文学特征