欧洲文学文本语料库英文小说数据集2021

数据集概述

该数据集是欧洲文学文本语料库(ELTeC)的英文小说部分,2021年4月发布,包含100部英文小说的TEI XML源文件,由COST Action项目构建,为欧洲文学远程阅读研究提供支持。

文件详解

  • 文件名称: README.md
  • 文件格式: Markdown (.md)
  • 内容: 包含数据集DOI标识、ELTeC项目背景说明、发布说明链接及英文小说语料库的基本信息(如包含100部作品)
  • 文件名称: ELTeC-eng-1.0.1.zip
  • 文件格式: 压缩包 (.zip)
  • 内容: 可能包含英文小说语料库的TEI XML源文件

数据来源

COST Action Distant Reading for European Literary History(CA16204)

适用场景

  • 数字人文研究: 用于欧洲英文小说的远程阅读、文本挖掘与文学模式分析
  • 计算语言学研究: 可作为英文历史小说语料库,支持词汇、句法或文体特征的量化分析
  • 文学社会学研究: 辅助探究19世纪至20世纪初英文小说的主题演变与文化语境
  • 语料库建设参考: 为多语言文学语料库的标准化构建提供TEI XML格式范例
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 28.04 MiB
最后更新 2025年12月14日
创建于 2025年12月14日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。