YouTube视频评论情感分析数据集百万级标注评论
数据来源:互联网公开数据
标签:YouTube,评论,情感分析,自然语言处理,NLP,情感分类,文本数据,机器学习,深度学习
数据概述:
本数据集包含超过一百万条YouTube视频评论,每条评论都标注了情感标签——正面、中性或负面。这些评论涵盖了编程、新闻、体育、政治等多个主题,并附带了丰富的元数据,以方便进行各种自然语言处理(NLP)和情感分析任务。
数据集内容包括以下字段:
CommentID:每条评论的唯一标识符。
VideoID:评论所属视频的标识符。
VideoTitle:对应视频的标题。
AuthorName:评论作者的显示名称。
AuthorChannelID:作者的唯一频道标识符。
CommentText:评论的实际内容。
Sentiment:分配给评论的情感标签(正面、中性、负面)。
Likes:评论收到的点赞数量。
Replies:评论的回复数量。
PublishedAt:发布日期和时间。
RegionCode:映射到视频/评论地理来源的区域代码。
CategoryID:对视频内容进行分类的标识符。
数据收集与标注流程:
提取:
使用YouTube Data API收集评论,确保从多个频道和地区收集到丰富多样的评论。
情感标注:
结合先进的人工智能技术(使用Gemini等模型)和人工验证来准确标注每条评论。
清洗与预处理:
应用全面的清洗步骤,删除时间戳、代码片段和特殊字符等无关噪声,以确保高质量、即用型文本。
平衡性增强:
为了解决类别不平衡问题(特别是对于负面和中性情感),实施了评论增强过程。此过程生成了选定评论的合成变体,增加了语言多样性,同时保留了原始情感,从而确保数据集更加平衡。
用户收益:
规模与多样性:
该数据集包含超过一百万条来自不同领域的评论,为训练和评估情感分析模型提供了丰富的资源。
质量与一致性:
严格的清洗、预处理和增强确保了数据的可靠性和代表性,反映了真实的YouTube互动。
多功能性:
非常适合希望构建或微调用于情感分析、内容审核和其他NLP应用的大型语言模型的的研究人员、数据科学家和开发人员。
本数据集已开源,鼓励协作和创新。 随附的GitHub存储库中提供了详细的文档以及用于提取、标注和增强的代码。