Redditr-AskScience科学讨论社区帖子标签数据集-2016-2022
数据来源:互联网公开数据
标签:Reddit, AskScience, 科学讨论, 帖子, 标签, 文本分析, 自然语言处理, 社区互动, 内容分类
数据概述:
本数据集来源于Reddit平台上的r/AskScience子版块,时间跨度为2016年1月1日至2022年5月20日。它包含了612,668个数据点,共22个字段,涵盖了帖子内容、描述、标签、NSFW/SFW状态、发布年份等信息。数据通过Python和Pushshift API收集,并使用NumPy和pandas进行数据清洗。详细的字段描述可供参考。
数据用途概述:
该数据集适用于多种用途,包括:标签预测,训练模型以预测帖子标签(如“科学”、“提问”、“讨论”),从而实现Reddit等平台的自动化内容分类;NSFW分类,根据文本内容将帖子分类为SFW或NSFW,为在线论坛提供内容审核工具;文本挖掘/NLP任务,应用情感分析、主题建模和文本分类等NLP技术,探索科学相关讨论的内容和主题;社区互动分析,调查哪些帖子类型或标签能产生更多互动(如点赞或评论),从而深入了解用户互动;科学主题趋势检测,识别新兴科学主题并分析兴趣领域的转变,这有助于预测未来科学讨论的趋势。