childTale_A_Based_格林童话情感标注语料库_2023

数据集概述

本数据集为childTale-A语料库,包含格林兄弟《儿童与家庭童话集》第七版中的八十篇童话,由CHYLSA项目完成句子级情感标注。标注涵盖效价、唤醒度两个维度及愤怒、厌恶等六种基本情绪,包含原始文本、标注说明、分析脚本、句子和文本级标注数据,支持童话情感分析研究。

文件详解

  • 标注用文件(压缩包)
  • 文件名称:ChildTale-A_FairyTales_txt_files.zip、ChildTale-A_Instructions_for_Annotation.zip
  • 文件格式:ZIP
  • 字段映射介绍:含八十篇童话的标准化拼写TXT文件,及德语版效价、唤醒度与六种基本情绪标注说明文档
  • 分析脚本文件
  • 文件名称:ChildTale-A_Scripts_CreateAnnotationXLSX.py、ChildTale-A_Scripts_SplitTexts.py、ChildTale-A_Scripts_DCT_5.R等
  • 文件格式:PY、R
  • 字段映射介绍:Python脚本用于生成标注Excel文件、拆分句子;R脚本用于数据预处理、计算评分者信度(Krippendorff's alpha)、效价标注平滑(离散余弦变换)
  • 句子级数据文件
  • 文件名称:ChildTale-A_Data_N80_Sentence_level.xlsx
  • 文件格式:XLSX
  • 字段映射介绍:含每个句子的效价/唤醒度连续值、正负中性分类、六种基本情绪标注
  • 文本级数据文件
  • 文件名称:ChildTale-A_Data_N80_Text_level.xlsx
  • 文件格式:XLSX
  • 字段映射介绍:含童话德英标题、句子数、KMH-ID等基本信息,及平均效价/唤醒度、评分者信度、情绪占比、情绪跨度等分析结果
  • 情感弧数据文件
  • 文件名称:ChildTale-A_Data_N80_DCT.xlsx
  • 文件格式:XLSX
  • 字段映射介绍:含经离散余弦变换和长度归一化后的效价数据,每篇童话对应一百个数据点

数据来源

DFG重点项目SPP 2207“计算文学研究”子项目CHYLSA(Children’s and Youth Literature Sentiment Analysis),参考论文Herrmann & Lüdtke (2023)

适用场景

  • 计算文学情感分析: 研究格林童话的情感分布、情感弧特征及情绪表达规律
  • 儿童文学研究: 分析童话情感对儿童读者的潜在影响,支撑儿童文学教育应用
  • 情感标注方法验证: 基于双标注者数据测试情感标注工具的可靠性与一致性
  • 自然语言处理模型训练: 作为情感分析模型的训练或测试语料,提升童话文本情感识别精度
  • 跨学科情感研究: 结合文学与心理学,探索经典童话的情绪结构与传播机制
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 1.96 MiB
最后更新 2026年1月23日
创建于 2026年1月23日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。