Reddit评论得分预测数据集-2021-ehallmar

Reddit评论得分预测数据集-2021-ehallmar 数据来源:互联网公开数据 标签:Reddit,评论,预测,机器学习,神经网络,BOW,词嵌入,LSTM,数据集,高赞评论,低赞评论

数据概述: 本数据集包含从Reddit平台上提取的400万条评论,其中200万条是最低评分的评论(高度负面评价),200万条是最高评分的评论(高度正面评价)。数据集还包括每条评论的文本内容及其父评论的元数据,便于进行评论得分预测分析。该数据集选自超过3.8亿条Reddit评论的更大数据集中。

数据用途概述: 该数据集适用于机器学习和深度学习模型的训练与评估,特别是针对评论得分预测的场景。研究人员和数据科学家可以利用此数据集开发和改进预测模型,优化推荐系统或内容筛选算法。此外,该数据集还可以用于自然语言处理任务,如情感分析、文本分类等。对于教育和培训目的,该数据集提供了一个丰富的资源库,帮助学习者理解神经网络、词袋模型(BOW)和长短时记忆网络(LSTM)等技术在文本分析中的应用。

数据集内容: - 评论文本:每条评论的具体内容 - 得分:评论的得分情况(高度正面或高度负面) - 父评论文本:父评论的具体内容 - 父评论得分:父评论的得分情况 - 评论时间戳:评论发布时间 - 子评论数量:评论的回复数量 - 作者:评论作者的用户名

该数据集来源于Pushshift.io,具有高度的多样性和代表性,适用于多种研究和应用需求。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 805.8 MiB
最后更新 2025年6月4日
创建于 2025年6月4日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。