数据4chan在线仇恨言论深度学习测量数据集

数据集概述

本数据集包含从4chan的/pol/板块提取的50万条帖子原始内容,以CSV格式存储,仅含帖子内容列。数据无线程或回复结构,为扁平化单文件,适用于文本分析、自然语言处理及计算社会科学研究,需注意内容可能包含敏感或攻击性材料。

文件详解

  • 文件名称: pol_500K4chan.csv
  • 文件格式: CSV
  • 字段映射: 仅含1列com,存储帖子的原始文本内容
  • 文件名称: Readme.pdf
  • 文件格式: PDF
  • 内容说明: 数据集说明文档,包含数据来源、格式、使用注意事项及引用信息

数据来源

4chan官方API(提取自/pol/板块)

适用场景

  • 文本分析与自然语言处理(NLP)研究
  • 在线话语、极端主义或政治极化相关研究
  • 网络论坛语言使用与情感分析
  • 文本分类或内容 moderation机器学习模型的开发测试
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 107.86 MiB
最后更新 2025年12月10日
创建于 2025年12月10日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。