DIY维修视频多模态YouTube数据集

数据集概述

该数据集包含六千零一十五条YouTube DIY维修教程视频,涵盖结构化元数据、转录文本、观众评论、频道信息及多轮人工标注的教学内容,涉及十六个DIY子领域,为教学内容分析提供多模态数据支持。

文件详解

  • 核心数据文件:
  • video_metadata.csv: CSV格式,包含六千零一十五行十九列数据,字段包括Video_ID、Title、Duration、Like_Count、Comment_Count、View_Count、Published_At、Description、Duration_Seconds、Engagement_Ratio、Transcript、Comments、Video_Link、Has_Comments、Channel_ID、Channel_Title、Thumbnail_URL等。
  • data_dictionary.csv: CSV格式,数据字典文件,定义各字段的描述、数据类型、单位、允许值及备注。
  • 文档与配置文件:
  • README.md: 项目说明文档,介绍数据集概述、项目结构等内容。
  • LICENSE: 许可证文件,说明数据集使用许可。
  • CITATION.cff: 引用格式文件,规范数据集引用方式。
  • requirements.txt: 文本格式,列出数据集处理所需的依赖库,如selenium、beautifulsoup4、pandas等。

适用场景

  • 教学内容分析: 研究DIY维修视频的教学结构、语言特征及知识传递效果。
  • 多模态数据挖掘: 探索视频元数据、转录文本与观众评论的关联规律。
  • 自然语言处理: 用于转录文本纠错、非语言片段识别等模型训练。
  • 社交媒体研究: 分析DIY领域视频的用户参与度、评论情感及传播机制。
  • 人工智能应用: 支持DIY视频分类、推荐系统及智能问答模型开发。
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 45.57 MiB
最后更新 2025年11月28日
创建于 2025年11月28日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。