数据集

英文小说文本数据集

英文小说文本数据集数据来源：互联网公开数据
标签：英文小说,自然语言处理,NLP,文本分类,文本摘要,文学作品,预处理,内容过滤

数据概述：
本数据集包含一系列英文小说文本，适用于自然语言处理（NLP）任务，例如文本分类、文本摘要等。数据集基于Project Gutenberg（普罗吉特）开源文学作品资源构建，涵盖了经典和现代的英文小说。为了便于使用，数据已经去除了元数据和许可信息，但可能仍需要进一步的预处理才能用于训练模型。

最近更新中，数据集新增了一列“summary”（摘要），这些摘要通过Gemini 1.5 Pro模型生成。同时，为确保内容安全，原始数据集中检测到有害内容的部分文本已被移除。

数据用途概述：
该数据集适用于多种NLP相关场景：
1. 文本分类任务：可用于训练模型识别小说的类型、风格、主题等。
2. 文本摘要生成：新增的“summary”列提供了训练文本摘要模型的参考数据。
3. 文学研究：研究人员可以利用数据集中的小说文本进行文学风格分析、作者风格识别等研究。
4. 自然语言理解：数据集可用于训练和测试文本理解模型，如情感分析、实体识别等。
5. 教育与培训：数据集可作为教材或练习数据，帮助学习者理解和掌握NLP相关技术。

该数据集特别适合需要大量文学文本的项目，如构建文学搜索引擎、开发小说推荐系统或研究语言模型的文学生成能力。同时，新增的摘要列也为文本摘要任务提供了高质量的基准数据。

数据与资源

英文小说文本数据集.zipZIP
21.06 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	21.06 MiB
最后更新	2025年4月21日
创建于	2025年4月21日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

英文小说文本数据集

数据与资源

附加信息

注册成功！