数据集概述
该数据集包含六千零一十五条YouTube DIY维修教程视频,涵盖结构化元数据、转录文本、观众评论、频道信息及多轮人工标注的教学内容,涉及十六个DIY子领域,为教学内容分析提供多模态数据支持。
文件详解
- 核心数据文件:
- video_metadata.csv: CSV格式,包含六千零一十五行十九列数据,字段包括Video_ID、Title、Duration、Like_Count、Comment_Count、View_Count、Published_At、Description、Duration_Seconds、Engagement_Ratio、Transcript、Comments、Video_Link、Has_Comments、Channel_ID、Channel_Title、Thumbnail_URL等。
- data_dictionary.csv: CSV格式,数据字典文件,定义各字段的描述、数据类型、单位、允许值及备注。
- 文档与配置文件:
- README.md: 项目说明文档,介绍数据集概述、项目结构等内容。
- LICENSE: 许可证文件,说明数据集使用许可。
- CITATION.cff: 引用格式文件,规范数据集引用方式。
- requirements.txt: 文本格式,列出数据集处理所需的依赖库,如selenium、beautifulsoup4、pandas等。
适用场景
- 教学内容分析: 研究DIY维修视频的教学结构、语言特征及知识传递效果。
- 多模态数据挖掘: 探索视频元数据、转录文本与观众评论的关联规律。
- 自然语言处理: 用于转录文本纠错、非语言片段识别等模型训练。
- 社交媒体研究: 分析DIY领域视频的用户参与度、评论情感及传播机制。
- 人工智能应用: 支持DIY视频分类、推荐系统及智能问答模型开发。