数据集概述
本数据集为汉斯·克里斯蒂安·安徒生的印刷作品精选,包含163篇童话、6部小说及1个元数据JSON文件,总计171个文件。多数为UTF-8编码的TXT文本文件,含丹麦语特殊字符,另有1个JSON元数据文件及1个包含所有170个文件的ZIP压缩包,适用于文学文本分析场景。
文件详解
- 文本文件(TXT)
- 文件名称:如Anne Lisbeth.txt、Nabofamilierne.txt等(共169个)
- 文件格式:TXT(UTF-8编码)
- 字段映射介绍:包含安徒生作品原文内容,部分文件含丹麦语特殊字符(æ、ø、ö等)
- 元数据文件
- 文件名称:metadataNotesTalesNovels.json
- 文件格式:JSON
- 字段映射介绍:用于Douglas Duhaime和Peter Leonard开发的Intertext程序,包含作品元数据信息
- 压缩包文件
- 文件名称:zenodo-7215598.zip
- 文件格式:ZIP
- 字段映射介绍:包含所有170个文件的压缩包
适用场景
- 文学文本分析: 用于安徒生作品的主题、风格、语言特征等文学研究
- 丹麦语语言研究: 分析文本中的丹麦语特殊字符及语言使用习惯
- 数字人文研究: 结合Intertext程序对作品进行互文性分析
- 文学教育资源: 为安徒生作品相关教学提供文本素材支持
- 数据归档与共享: 通过压缩包实现数据集的完整存储与分发