THVD多语言说话头视频完整数据集2024

数据集概述

THVD(说话头视频数据集)是一个综合性的人脸视频数据集,包含超过47,000个视频,总时长超过500小时,涵盖20,841个不同的身份。所有视频均为包含可见嘴部运动的完整长度视频,人脸最小尺寸为400像素,视频时长从20秒到5分钟不等。数据集包含丰富的人口统计信息和多语言覆盖,分辨率为百分之六十4K和百分之三十三全高清。

文件详解

  • 主数据文件
  • 文件名称: output - example.csv
  • 文件格式: CSV
  • 字段映射介绍: 包含视频的详细元数据信息,主要字段包括:
  • id:视频唯一标识符
  • gender:性别信息
  • race:种族信息
  • lang:语言代码
  • age:年龄分段
  • date:录制日期
  • filesize:文件大小
  • filetype:文件格式(MP4)
  • width:视频宽度
  • height:视频高度
  • length:视频时长
  • fps:帧率

适用场景

  • 人脸识别与验证:训练和评估人脸识别模型,支持大规模身份验证任务。
  • 行为识别分析:识别视频中的人类活动和行为模式。
  • 人员重识别:在不同视频和环境条件下进行身份跟踪和匹配。
  • 深度伪造检测:开发视频篡改检测算法和伪造识别技术。
  • 生成式AI应用:训练高分辨率视频生成模型,支持虚拟形象创建。
  • 唇语同步应用:增强AI驱动的唇语同步模型,用于配音和虚拟形象应用。
  • 背景AI处理:开发自动背景替换、分割和增强的AI模型。
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 0.0 MiB
最后更新 2025年11月26日
创建于 2025年11月26日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。