数据集

Reddit评论得分预测数据集-2021-ehallmar

Reddit评论得分预测数据集-2021-ehallmar 数据来源：互联网公开数据标签：Reddit,评论,预测,机器学习,神经网络,BOW,词嵌入,LSTM,数据集,高赞评论,低赞评论

数据概述：本数据集包含从Reddit平台上提取的400万条评论，其中200万条是最低评分的评论（高度负面评价），200万条是最高评分的评论（高度正面评价）。数据集还包括每条评论的文本内容及其父评论的元数据，便于进行评论得分预测分析。该数据集选自超过3.8亿条Reddit评论的更大数据集中。

数据用途概述：该数据集适用于机器学习和深度学习模型的训练与评估，特别是针对评论得分预测的场景。研究人员和数据科学家可以利用此数据集开发和改进预测模型，优化推荐系统或内容筛选算法。此外，该数据集还可以用于自然语言处理任务，如情感分析、文本分类等。对于教育和培训目的，该数据集提供了一个丰富的资源库，帮助学习者理解神经网络、词袋模型（BOW）和长短时记忆网络（LSTM）等技术在文本分析中的应用。

数据集内容： - 评论文本：每条评论的具体内容 - 得分：评论的得分情况（高度正面或高度负面） - 父评论文本：父评论的具体内容 - 父评论得分：父评论的得分情况 - 评论时间戳：评论发布时间 - 子评论数量：评论的回复数量 - 作者：评论作者的用户名

该数据集来源于Pushshift.io，具有高度的多样性和代表性，适用于多种研究和应用需求。

数据与资源

versions_20250405035423.zipZIP
805.80 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	805.8 MiB
最后更新	2025年6月4日
创建于	2025年6月4日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

Reddit评论得分预测数据集-2021-ehallmar

数据与资源

附加信息

注册成功！