深度伪造视频真假音频识别数据集-基于DFDC挑战赛数据
数据来源:互联网公开数据
标签:视频伪造检测,音频伪造检测,深度伪造,DFDC,数据标注,机器学习,人工智能
数据概述:
本数据集包含DFDC(Deepfake Detection Challenge)提供的标记数据,并进一步细分了音频和视频伪造的标签。通过分析@zaharch提供的数据,数据集中新增了audio_label和video_label两列。audio_label列基于音频哈希值和编码时间基准的变化来判断音频是否为伪造;video_label列则基于像素哈希值的变化来判断视频是否为伪造。
数据用途概述:
该数据集适用于深度伪造检测、音频和视频伪造分析、机器学习模型训练等多种场景。研究者可以利用此数据集开发和评估伪造检测算法;执法机构和安全专家可以使用数据集识别和防止伪造内容的传播;教育者和学生可以利用数据集进行相关技术的学习和研究。
举例:
数据集中的一行数据示例:
- label: FAKE
- wav.hash: abc123def456
- wav.hash.orig: abc123def456
- audio.@codec_time_base: 1/48000
- pxl.hash: xyz789uvw012
- pxl.hash.orig: mno345pqr678
- audio_label: REAL
- video_label: FAKE
解释:该数据记录显示整体标签为FAKE,但音频部分未检测到伪造(audio_label为REAL),视频部分则检测为伪造(video_label为FAKE)。