TED-Ed视频互动与内容分析数据集-YouTubeAPI采集
数据来源:互联网公开数据
标签:TED-Ed, YouTube, 视频分析, 评论数据, 观众互动, 元数据, 教育视频, 文本分析
数据概述:
本数据集通过Google YouTube Data API (v3.0)采集,包含了TED-Ed频道视频的详细元数据和评论数据,共包含两个CSV文件,分别记录视频信息和评论信息,并通过video_id字段关联。数据集旨在为研究TED-Ed视频的内容特征、观众互动模式等提供数据支持。
视频信息 (video_df) 字段说明:
video_id:TED-Ed视频的唯一标识符。
channelTitle:发布视频的YouTube频道名称,固定为"TED-Ed"。
title:视频标题,概括视频内容。
description:视频详细描述,包含TED-Ed提供的额外信息和背景。
tags:与视频相关的关键词或短语,用于分类和搜索。
publishedAt:视频发布日期和时间。
viewCount:视频观看次数。
likeCount:视频点赞数量。
favouriteCount:用户将视频标记为“喜欢”的数量(如适用)。
commentCount:视频评论数量。
duration:视频总时长,人类可读格式。
definition:视频清晰度,如高清(HD)或其他格式。
caption:是否提供字幕的布尔值。
publishDayName:视频发布日期的星期名称。
durationSecs:视频总时长,秒为单位。
tagsCount:视频标签数量。
likeRatio:点赞与观看次数的比例,衡量观众喜爱程度。
commentRatio:评论与观看次数的比例,衡量观众互动程度。
titleLength:视频标题的字符数。
durationMinutes:视频总时长,分钟为单位。
title_no_stopwords:去除常用英文停用词后的视频标题,便于文本分析。
评论信息 (comment_df) 字段说明:
video_id:评论所属TED-Ed视频的唯一标识符。
comments:观众在TED-Ed视频上发布的评论。
数据用途概述:
该数据集可用于多种研究和分析场景,包括:视频内容分析,例如主题识别、关键词分析;观众互动行为分析,例如评论情感分析、点赞与观看关系的分析;时间序列分析,例如视频发布时间与观看量的关系;以及教育视频的有效性评估等。研究人员可以利用此数据深入了解TED-Ed视频的传播规律、观众反馈,以及其在教育领域的影响。