安徒生童话事件抽取数据集

数据集概述

本数据集基于安徒生童话文本,通过事件抽取处理构建而成。数据源自三个公开平台的英文版本童话,经清洗与结构化处理,以JSON和CSV格式存储,包含童话原文、分句数据及事件抽取结果,适用于自然语言处理相关任务。

文件详解

  • 文件名称:fairy_tales_andersen.fairy_tales.json
  • 文件格式:JSON
  • 内容说明:存储安徒生童话原文数据,结构可能包含童话标题、完整文本等基础信息
  • 文件名称:dataset-andersen-v.2.5.csv
  • 文件格式:CSV
  • 内容说明:包含童话标题(title)与对应文本内容(content)字段,记录清洗后的童话完整文本
  • 文件名称:sentences_data.csv
  • 文件格式:CSV
  • 内容说明:按标题(title)与句子(sentence)字段拆分存储童话文本,每行为单句数据
  • 文件名称:extracted_events.csv
  • 文件格式:CSV
  • 内容说明:存储从童话文本中抽取的事件数据,可能包含主语、谓语、宾语、时间、地点等结构化事件要素

数据来源

Project Gutenberg、Andersen Stories、HCA Gilead website

适用场景

  • 自然语言处理研究:用于童话文本的事件抽取、句法分析等任务
  • 文学计算分析:探索童话叙事结构与事件模式
  • 教育资源开发:辅助童话文本的语义理解教学
  • 跨语言研究:为安徒生童话的多语言事件抽取提供对照数据
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 2.26 MiB
最后更新 2025年11月29日
创建于 2025年11月29日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。