数据集

SCP幽默文章数据集

数据来源：互联网公开数据

标签：SCP, 幽默, 娱乐, 人工智能, 文本分类, 文本生成, 数据标注, 自然语言处理

数据概述：
本数据集收录了SCP Wiki中的“幽默文章”（Joke SCPs）相关内容，共包含约300篇幽默和模仿类文章。数据集捕捉了这些文章的多个维度信息，包括文章标题、正文内容、图片说明、用户评分、状态标记、标签以及原始链接等。部分文章因删除或其他原因无法正常获取，但数据集中仍保留了这些文章的主页面内容，以确保数据完整性。

数据集包含以下八个字段：
1. Code：SCP的代码名称，例如“SCP-001-J”或“CODENAME: Some Name”。
2. Title：SCP文章的标题，例如“The Thing in the Room”。
3. Text：主页面的完整文本内容，不包括图片说明，但可能包含非故事内容（如许可证声明）。段落间以\n换行符分隔。
4. Image Captions：页面中的所有图片说明，用\n换行符分隔。
5. Rating：用户在网站上对文章的评分，为正数或负数的整数，格式为“+N”或“-N”，N为具体数值。
6. State：文章的状态标记，可能的值包括“active”（活跃）、“deleted”（删除）、“blocked”（被封禁）或“age restricted”（包含成人内容）。
7. Tags：隐藏和已删除的标签，隐藏标签以“_”开头，可见标签则无前缀。
8. Link：指向原始文章的URL链接。

由于部分文章被删除或标记为缺失，数据集中可能存在重复的文本内容，例如删除通知被记录为正文的一部分。

数据用途概述：
该数据集适用于多种自然语言处理和机器学习任务，主要包括但不限于：
1. 文本分类：训练模型区分幽默文章（joke SCPs）与严肃文章（real SCPs），可用于自动识别文本的风格或意图。
2. 文本生成：利用数据集生成模仿SCP风格的幽默文本，可用于创意写作或娱乐内容创作。
3. 标签预测：通过分析文本内容，预测文章可能被标记的标签，这有助于内容分类和推荐系统的开发。
4. 语义分析：研究幽默文章的语言特征，探索幽默背后的模式和规律。
5. 教育与培训：为自然语言处理领域的研究人员和开发者提供丰富的语料库，用于训练和测试算法。

此外，该数据集还可用于娱乐和社区互动，例如构建基于幽默SCP的聊天机器人或游戏。

数据来源声明：
本数据集基于SCP Wiki网站的公开内容，具体链接为：https://scp-wiki.wikidot.com/。数据遵循Creative Commons Attribution-ShareAlike License（CC BY-SA）许可协议，所有内容均可免费使用和分享，前提是在使用时必须注明来源并遵循相同的许可协议。

特别鸣谢：
感谢所有参与SCP创作与贡献的作者和志愿者。数据集中的每一条记录都链接回了原始作品，确保了创作者的权益和数据的透明性。

数据与资源

SCP幽默文章数据集.zipZIP
0.78 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	0.78 MiB
最后更新	2025年4月14日
创建于	2025年4月14日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

SCP幽默文章数据集

数据与资源

附加信息

注册成功！