数据集

YouTube视频评论情感分析数据集百万级标注评论

YouTube视频评论情感分析数据集百万级标注评论数据来源：互联网公开数据标签：YouTube,评论,情感分析,自然语言处理,NLP,情感分类,文本数据,机器学习,深度学习数据概述：本数据集包含超过一百万条YouTube视频评论，每条评论都标注了情感标签——正面、中性或负面。这些评论涵盖了编程、新闻、体育、政治等多个主题，并附带了丰富的元数据，以方便进行各种自然语言处理（NLP）和情感分析任务。

数据集内容包括以下字段：

CommentID：每条评论的唯一标识符。 VideoID：评论所属视频的标识符。 VideoTitle：对应视频的标题。 AuthorName：评论作者的显示名称。 AuthorChannelID：作者的唯一频道标识符。 CommentText：评论的实际内容。 Sentiment：分配给评论的情感标签（正面、中性、负面）。 Likes：评论收到的点赞数量。 Replies：评论的回复数量。 PublishedAt：发布日期和时间。 RegionCode：映射到视频/评论地理来源的区域代码。 CategoryID：对视频内容进行分类的标识符。

数据收集与标注流程：

提取：使用YouTube Data API收集评论，确保从多个频道和地区收集到丰富多样的评论。情感标注：结合先进的人工智能技术（使用Gemini等模型）和人工验证来准确标注每条评论。清洗与预处理：应用全面的清洗步骤，删除时间戳、代码片段和特殊字符等无关噪声，以确保高质量、即用型文本。平衡性增强：为了解决类别不平衡问题（特别是对于负面和中性情感），实施了评论增强过程。此过程生成了选定评论的合成变体，增加了语言多样性，同时保留了原始情感，从而确保数据集更加平衡。

用户收益：

规模与多样性：该数据集包含超过一百万条来自不同领域的评论，为训练和评估情感分析模型提供了丰富的资源。质量与一致性：严格的清洗、预处理和增强确保了数据的可靠性和代表性，反映了真实的YouTube互动。多功能性：非常适合希望构建或微调用于情感分析、内容审核和其他NLP应用的大型语言模型的的研究人员、数据科学家和开发人员。

本数据集已开源，鼓励协作和创新。随附的GitHub存储库中提供了详细的文档以及用于提取、标注和增强的代码。

数据与资源

YouTube视频评论情感分析数据集百万级标注评论.zipZIP
148.86 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	148.86 MiB
最后更新	2025年4月20日
创建于	2025年4月20日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

YouTube视频评论情感分析数据集百万级标注评论

数据与资源

附加信息

注册成功！