安徒生童话事件抽取数据集

关注者: 0

资源积分: 30

分类

公开数据

公开数据

授权

没有提供授权

数据集

安徒生童话事件抽取数据集

数据集概述

本数据集基于安徒生童话文本，通过事件抽取处理构建而成。数据源自三个公开平台的英文版本童话，经清洗与结构化处理，以JSON和CSV格式存储，包含童话原文、分句数据及事件抽取结果，适用于自然语言处理相关任务。

文件详解

文件名称：fairy_tales_andersen.fairy_tales.json
文件格式：JSON
内容说明：存储安徒生童话原文数据，结构可能包含童话标题、完整文本等基础信息
文件名称：dataset-andersen-v.2.5.csv
文件格式：CSV
内容说明：包含童话标题（title）与对应文本内容（content）字段，记录清洗后的童话完整文本
文件名称：sentences_data.csv
文件格式：CSV
内容说明：按标题（title）与句子（sentence）字段拆分存储童话文本，每行为单句数据
文件名称：extracted_events.csv
文件格式：CSV
内容说明：存储从童话文本中抽取的事件数据，可能包含主语、谓语、宾语、时间、地点等结构化事件要素

数据来源

Project Gutenberg、Andersen Stories、HCA Gilead website

适用场景

自然语言处理研究：用于童话文本的事件抽取、句法分析等任务
文学计算分析：探索童话叙事结构与事件模式
教育资源开发：辅助童话文本的语义理解教学
跨语言研究：为安徒生童话的多语言事件抽取提供对照数据

数据与资源

22v3kcgks3-2.zipZIP
2.26 MiB

下载

附加信息

字段	值
作者	Maxj
版本	1
数据集大小	2.26 MiB
最后更新	2025年11月29日
创建于	2025年11月29日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

智能助手

您好！我是海数据平台的智能助手，有什么可以帮助您的吗？