数据集概述
本数据集为childTale-A语料库,包含格林兄弟《儿童与家庭童话集》第七版中的八十篇童话,由CHYLSA项目完成句子级情感标注。标注涵盖效价、唤醒度两个维度及愤怒、厌恶等六种基本情绪,包含原始文本、标注说明、分析脚本、句子和文本级标注数据,支持童话情感分析研究。
文件详解
- 标注用文件(压缩包)
- 文件名称:ChildTale-A_FairyTales_txt_files.zip、ChildTale-A_Instructions_for_Annotation.zip
- 文件格式:ZIP
- 字段映射介绍:含八十篇童话的标准化拼写TXT文件,及德语版效价、唤醒度与六种基本情绪标注说明文档
- 分析脚本文件
- 文件名称:ChildTale-A_Scripts_CreateAnnotationXLSX.py、ChildTale-A_Scripts_SplitTexts.py、ChildTale-A_Scripts_DCT_5.R等
- 文件格式:PY、R
- 字段映射介绍:Python脚本用于生成标注Excel文件、拆分句子;R脚本用于数据预处理、计算评分者信度(Krippendorff's alpha)、效价标注平滑(离散余弦变换)
- 句子级数据文件
- 文件名称:ChildTale-A_Data_N80_Sentence_level.xlsx
- 文件格式:XLSX
- 字段映射介绍:含每个句子的效价/唤醒度连续值、正负中性分类、六种基本情绪标注
- 文本级数据文件
- 文件名称:ChildTale-A_Data_N80_Text_level.xlsx
- 文件格式:XLSX
- 字段映射介绍:含童话德英标题、句子数、KMH-ID等基本信息,及平均效价/唤醒度、评分者信度、情绪占比、情绪跨度等分析结果
- 情感弧数据文件
- 文件名称:ChildTale-A_Data_N80_DCT.xlsx
- 文件格式:XLSX
- 字段映射介绍:含经离散余弦变换和长度归一化后的效价数据,每篇童话对应一百个数据点
数据来源
DFG重点项目SPP 2207“计算文学研究”子项目CHYLSA(Children’s and Youth Literature Sentiment Analysis),参考论文Herrmann & Lüdtke (2023)
适用场景
- 计算文学情感分析: 研究格林童话的情感分布、情感弧特征及情绪表达规律
- 儿童文学研究: 分析童话情感对儿童读者的潜在影响,支撑儿童文学教育应用
- 情感标注方法验证: 基于双标注者数据测试情感标注工具的可靠性与一致性
- 自然语言处理模型训练: 作为情感分析模型的训练或测试语料,提升童话文本情感识别精度
- 跨学科情感研究: 结合文学与心理学,探索经典童话的情绪结构与传播机制