英文小说文本数据集

英文小说文本数据集 数据来源:互联网公开数据
标签:英文小说,自然语言处理,NLP,文本分类,文本摘要,文学作品,预处理,内容过滤

数据概述:
本数据集包含一系列英文小说文本,适用于自然语言处理(NLP)任务,例如文本分类、文本摘要等。数据集基于Project Gutenberg(普罗吉特)开源文学作品资源构建,涵盖了经典和现代的英文小说。为了便于使用,数据已经去除了元数据和许可信息,但可能仍需要进一步的预处理才能用于训练模型。

最近更新中,数据集新增了一列“summary”(摘要),这些摘要通过Gemini 1.5 Pro模型生成。同时,为确保内容安全,原始数据集中检测到有害内容的部分文本已被移除。

数据用途概述:
该数据集适用于多种NLP相关场景:
1. 文本分类任务:可用于训练模型识别小说的类型、风格、主题等。
2. 文本摘要生成:新增的“summary”列提供了训练文本摘要模型的参考数据。
3. 文学研究:研究人员可以利用数据集中的小说文本进行文学风格分析、作者风格识别等研究。
4. 自然语言理解:数据集可用于训练和测试文本理解模型,如情感分析、实体识别等。
5. 教育与培训:数据集可作为教材或练习数据,帮助学习者理解和掌握NLP相关技术。

该数据集特别适合需要大量文学文本的项目,如构建文学搜索引擎、开发小说推荐系统或研究语言模型的文学生成能力。同时,新增的摘要列也为文本摘要任务提供了高质量的基准数据。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 21.06 MiB
最后更新 2025年4月21日
创建于 2025年4月21日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。