linhd_postdata_Based_Poesi_as诗歌语料库_公开数据集

数据集概述

本数据集为Poesi.as网站的诗歌语料库,包含以西班牙语为主的诗歌作品,覆盖21世纪及以前的创作,总计25,187首诗歌、7,918,679个词汇。提供诗歌文本JSON文件、作者信息CSV文件及公共领域诗歌提取脚本,支持西班牙语文学相关研究与分析。

文件详解

  • 主数据集压缩包
  • 文件名称:linhd-postdata/poesi.as-v1.0.0.zip
  • 文件格式:ZIP
  • 内容说明:包含核心诗歌数据文件、作者信息文件及数据处理脚本
  • 诗歌语料JSON文件
  • 文件名称:poesias_corpora.json
  • 文件格式:JSON
  • 内容说明:用于生成文本文件的诗歌语料主文件,包含诗歌文本内容
  • 古西班牙语诗歌JSON文件
  • 文件名称:poesias_corpora_old_spanish.json
  • 文件格式:JSON
  • 内容说明:包含Alfonso X创作的古西班牙语诗歌,未纳入语料库文件夹,仍在处理中
  • 作者信息CSV文件
  • 文件名称:authors.csv
  • 文件格式:CSV
  • 内容说明:提供20世纪及更早作者的调和信息,含VIAF、BnF、BNE、LoC、ISNI标识符,生卒日期、性别等Wikidata信息
  • 公共领域提取脚本
  • 文件名称:extract.py
  • 文件格式:Python脚本
  • 内容说明:可指定作者逝世年限(默认80年,符合西班牙版权法)生成公共领域诗歌JSON文件

数据来源

Poesi.as网站(www.poesi.as)

适用场景

  • 西班牙语文学研究: 分析21世纪及以前西班牙语诗歌的主题、风格与创作趋势
  • 作者信息挖掘: 利用authors.csv中的标识符与元数据,研究诗人的生平背景与创作关联
  • 文本语料库构建: 基于JSON文件构建标准化西班牙语诗歌语料库,支持NLP模型训练
  • 版权合规应用: 通过extract.py脚本筛选公共领域诗歌,用于无版权风险的文学传播与分析
  • 古西班牙语语言研究: 借助古西班牙语诗歌文件,探究语言演变与历史文学特征
packageimg

数据与资源

该数据集没有数据

附加信息

字段
作者 Maxj
版本 1
数据集大小 0.0 MiB
最后更新 2026年1月19日
创建于 2026年1月19日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。