YouTube视频评论情感分析数据集百万级标注评论

YouTube视频评论情感分析数据集百万级标注评论 数据来源:互联网公开数据 标签:YouTube,评论,情感分析,自然语言处理,NLP,情感分类,文本数据,机器学习,深度学习 数据概述: 本数据集包含超过一百万条YouTube视频评论,每条评论都标注了情感标签——正面、中性或负面。这些评论涵盖了编程、新闻、体育、政治等多个主题,并附带了丰富的元数据,以方便进行各种自然语言处理(NLP)和情感分析任务。

数据集内容包括以下字段:

CommentID:每条评论的唯一标识符。 VideoID:评论所属视频的标识符。 VideoTitle:对应视频的标题。 AuthorName:评论作者的显示名称。 AuthorChannelID:作者的唯一频道标识符。 CommentText:评论的实际内容。 Sentiment:分配给评论的情感标签(正面、中性、负面)。 Likes:评论收到的点赞数量。 Replies:评论的回复数量。 PublishedAt:发布日期和时间。 RegionCode:映射到视频/评论地理来源的区域代码。 CategoryID:对视频内容进行分类的标识符。

数据收集与标注流程:

提取: 使用YouTube Data API收集评论,确保从多个频道和地区收集到丰富多样的评论。 情感标注: 结合先进的人工智能技术(使用Gemini等模型)和人工验证来准确标注每条评论。 清洗与预处理: 应用全面的清洗步骤,删除时间戳、代码片段和特殊字符等无关噪声,以确保高质量、即用型文本。 平衡性增强: 为了解决类别不平衡问题(特别是对于负面和中性情感),实施了评论增强过程。此过程生成了选定评论的合成变体,增加了语言多样性,同时保留了原始情感,从而确保数据集更加平衡。

用户收益:

规模与多样性: 该数据集包含超过一百万条来自不同领域的评论,为训练和评估情感分析模型提供了丰富的资源。 质量与一致性: 严格的清洗、预处理和增强确保了数据的可靠性和代表性,反映了真实的YouTube互动。 多功能性: 非常适合希望构建或微调用于情感分析、内容审核和其他NLP应用的大型语言模型的的研究人员、数据科学家和开发人员。

本数据集已开源,鼓励协作和创新。 随附的GitHub存储库中提供了详细的文档以及用于提取、标注和增强的代码。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 148.86 MiB
最后更新 2025年4月20日
创建于 2025年4月20日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。