数据18世纪法国小说数据集1751_1800

数据集概述

该数据集包含1751至1800年间创作或首次出版的200部18世纪法国小说的数字化文本,以TEI/XML格式存储,同时提供精简版和扩展版TSV元数据文件,为法国文学研究提供结构化的文本资源。

文件详解

  • 核心文件:
  • roman18-novels_and_scripts.zip:压缩文件,包含所有TEI/XML格式的小说文本及相关脚本
  • roman18_novels_only.zip:压缩文件,仅包含TEI/XML格式的小说文本
  • metadata.tsv:TSV格式元数据文件,包含字段如filename(文件名)、au-name(作者名)、title(标题)、firsted-yr(首次出版年份)、token count(词元数)等
  • 扩展元数据(通过URL获取):
  • xml-tei_metadata.tsv:精简版TSV元数据,对应所有TEI/XML文件
  • xml-tei_full_metadata.tsv:扩展版TSV元数据,提供更详细的文本描述信息

数据来源

Trier University Trier Center for Digital Humanities (TCDH)

适用场景

  • 18世纪法国文学研究:分析该时期小说的主题、风格及文学特征
  • 数字人文研究:用于文本挖掘、计量文体学等数字化分析
  • 教学资源:作为法语语言文学教学的原始文本素材
  • 元数据标准研究:对比分析精简版与扩展版元数据的应用场景
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 160.08 MiB
最后更新 2025年12月14日
创建于 2025年12月14日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。