SCP幽默文章数据集

SCP幽默文章数据集

数据来源:互联网公开数据

标签:SCP, 幽默, 娱乐, 人工智能, 文本分类, 文本生成, 数据标注, 自然语言处理

数据概述:
本数据集收录了SCP Wiki中的“幽默文章”(Joke SCPs)相关内容,共包含约300篇幽默和模仿类文章。数据集捕捉了这些文章的多个维度信息,包括文章标题、正文内容、图片说明、用户评分、状态标记、标签以及原始链接等。部分文章因删除或其他原因无法正常获取,但数据集中仍保留了这些文章的主页面内容,以确保数据完整性。

数据集包含以下八个字段:
1. Code:SCP的代码名称,例如“SCP-001-J”或“CODENAME: Some Name”。
2. Title:SCP文章的标题,例如“The Thing in the Room”。
3. Text:主页面的完整文本内容,不包括图片说明,但可能包含非故事内容(如许可证声明)。段落间以\n换行符分隔。
4. Image Captions:页面中的所有图片说明,用\n换行符分隔。
5. Rating:用户在网站上对文章的评分,为正数或负数的整数,格式为“+N”或“-N”,N为具体数值。
6. State:文章的状态标记,可能的值包括“active”(活跃)、“deleted”(删除)、“blocked”(被封禁)或“age restricted”(包含成人内容)。
7. Tags:隐藏和已删除的标签,隐藏标签以“_”开头,可见标签则无前缀。
8. Link:指向原始文章的URL链接。

由于部分文章被删除或标记为缺失,数据集中可能存在重复的文本内容,例如删除通知被记录为正文的一部分。

数据用途概述:
该数据集适用于多种自然语言处理和机器学习任务,主要包括但不限于:
1. 文本分类:训练模型区分幽默文章(joke SCPs)与严肃文章(real SCPs),可用于自动识别文本的风格或意图。
2. 文本生成:利用数据集生成模仿SCP风格的幽默文本,可用于创意写作或娱乐内容创作。
3. 标签预测:通过分析文本内容,预测文章可能被标记的标签,这有助于内容分类和推荐系统的开发。
4. 语义分析:研究幽默文章的语言特征,探索幽默背后的模式和规律。
5. 教育与培训:为自然语言处理领域的研究人员和开发者提供丰富的语料库,用于训练和测试算法。

此外,该数据集还可用于娱乐和社区互动,例如构建基于幽默SCP的聊天机器人或游戏。

数据来源声明:
本数据集基于SCP Wiki网站的公开内容,具体链接为:https://scp-wiki.wikidot.com/。数据遵循Creative Commons Attribution-ShareAlike License(CC BY-SA)许可协议,所有内容均可免费使用和分享,前提是在使用时必须注明来源并遵循相同的许可协议。

特别鸣谢:
感谢所有参与SCP创作与贡献的作者和志愿者。数据集中的每一条记录都链接回了原始作品,确保了创作者的权益和数据的透明性。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 0.78 MiB
最后更新 2025年4月14日
创建于 2025年4月14日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。