YouTube视频统计数据集
数据来源:互联网公开数据
数据集简介:
本数据集通过 YouTube API 提取,涵盖特定频道下多个视频的基础统计信息与文本内容特征。数据收集的初衷是用于构建一个文本挖掘项目,探索如何基于视频标题和描述文本预测视频获得的点赞数量(like_count)。该数据集适用于内容分析、社交媒体参与度建模、自然语言与用户行为关联研究等任务。
字段定义:
title:视频标题
description:视频描述内容
published:视频发布时间(日期格式)
tag_count:视频标签数量
view_count:视频观看次数
like_count:视频点赞数
dislike_count:视频点踩数(部分数据可能不再更新)
comment_count:评论数
tags:视频标签列表(可能为多个关键词组成的字符串)
title_length:标题的字符长度(用于文本特征建模)
数据特征:
数据来源:YouTube API,频道内容为主
数据类型:结构化数据,包含文本与数值字段
语言类型:主要为英语(视频道语言而定)
数据粒度:每行对应一个视频条目
数据格式:常见为CSV、JSON或DataFrame格式(如供Jupyter Notebook使用)
适用场景:
视频标题与描述对点赞数的影响建模(回归/预测)
社交媒体内容策略优化分析
文本特征与用户行为关系分析(点击率、互动度等)
机器学习项目样例,如回归建模、特征工程、情感挖掘
内容创作效果评估与关键词研究
更新频率:
为静态抓取样本集,不随时间自动更新。如需最新数据,可通过相同API流程重新提取。
标签:YouTube,视频统计,文本挖掘,点赞预测,社交媒体分析,自然语言处理,内容优化,用户行为,机器学习输入,API抓取,标题分析,互动数据