罗马尼亚小说语料库2021年4月版

数据集概述

该数据集是2021年4月发布的罗马尼亚小说语料库(ELTeC-rom),包含95部按第一层级编码的小说,提供了小说元数据、说明文档及压缩文件包,为欧洲文学文本相关研究提供基础数据支持。

文件详解

  • 文件名称: metadata.csv
  • 文件格式: CSV
  • 字段映射: 包含id(编号)、author-name(作者名)、book-title(书名)、subgenre(子类型)、year(年份)、year-cat(年份分类)、canon-cat(经典分类)、gender-cat(性别分类)、length(长度)、length-cat(长度分类)、counter(计数器)等字段
  • 文件名称: README.md
  • 文件格式: MD
  • 内容说明: 包含语料库发布说明、DOI引用信息及COST Action项目背景
  • 文件名称: ELTeC-rom-0.9.0.zip
  • 文件格式: ZIP
  • 内容说明: 压缩包文件,可能包含95部小说的编码文本数据

数据来源

COST Action "Distant Reading for European Literary History"(CA16204)

适用场景

  • 欧洲文学文本分析: 用于罗马尼亚小说的远距离阅读研究
  • 文学语料库构建: 作为多语言文学语料库的组成部分
  • 数字人文研究: 支持基于编码文本的文学特征统计分析
  • 比较文学研究: 为欧洲不同语言小说的对比研究提供数据基础
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 13.03 MiB
最后更新 2025年12月4日
创建于 2025年12月4日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。