TikTok视频字幕与误导信息分类数据集

TikTok视频字幕与误导信息分类数据集 数据来源:互联网公开数据
标签:短视频, 社交媒体, 误导信息, 内容审核, 自然语言处理, 数据标注, 机器学习, 用户互动

数据概述
本数据集包含了来自 TikTok 平台的视频字幕信息、用户互动数据以及相关标注信息,旨在支持研究者和开发者学习如何基于视频特征(如评论、点赞、观看量等)分类和识别误导性内容。数据集的每个记录都包含以下字段:
- claim_status:视频内容是否包含误导信息的标注,例如“真实”、“误导”或“未知”。
- video_id:视频的唯一标识符,用于定位具体的视频内容。
- video_duration_sec:视频的时长(以秒为单位),反映了视频的长度信息。
- video_transcription_text:视频的字幕文本,是视频内容的核心部分,可用于自然语言处理分析。
- verified_status:视频内容是否经过核实的标注,用于评估内容的真实性和可信度。
- author_ban_status:视频发布者的账号状态,例如是否被封禁,可用于分析误导信息的发布者特征。
- video_view_count:视频的观看次数,反映了视频的受欢迎程度。
- video_like_count:视频的点赞次数,反映了用户对视频内容的正面反馈。
- video_share_count:视频的分享次数,反映了内容的传播范围。
- video_download_count:视频的下载次数,反映了用户对内容的保存意愿。
- video_comment_count:视频的评论次数,反映了用户互动的活跃程度。

数据用途概述
该数据集适用于多种场景,主要集中在误导信息识别、内容审核、社交媒体分析和自然语言处理等领域:
1. 误导信息分类:研究者可以利用数据集中的标注信息(如 claim_statusverified_status),结合文本特征和用户互动数据,开发机器学习模型来识别和分类误导性内容。
2. 社交媒体内容分析:通过分析用户互动数据(如观看量、点赞数、评论数等),研究人员可以探究短视频平台上的内容传播规律和用户行为模式。
3. 自然语言处理任务:视频字幕文本(video_transcription_text)为文本分析提供了丰富的数据来源,可用于文本分类、情感分析、主题提取等任务。
4. 内容审核与风险管理:社交媒体平台可以基于此类数据集,开发自动化工具以检测和过滤误导性内容,提升平台内容的安全性和可信度。
5. 用户行为研究:通过分析发布者状态(如 author_ban_status)和用户互动数据,研究者可以深入了解误导信息的传播者特征及其行为模式。

数据来源说明
该数据集来源于公开的互联网数据,具体数据集链接为:https://github.com/GoogleCloudPlatform/training-data-analyst。数据集的构建和标注经过了严格的质量控制,确保数据的可靠性和可用性。

注意事项
1. 数据隐私:数据集中不包含用户的敏感信息,所有内容均已脱敏处理,符合数据隐私保护要求。
2. 数据标注质量:尽管数据标注经过了初步审核,但可能存在一定的标注误差,使用时需结合实际情况进行验证。
3. 适用范围:数据集内容基于特定时间段和平台的视频数据,研究结果可能不完全适用于其他场景或时间范围。

通过使用本数据集,研究者和开发者可以更深入地理解社交媒体内容的传播机制,提升误导信息识别能力,并为社交媒体平台的内容管理提供技术支持。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 0.77 MiB
最后更新 2025年4月14日
创建于 2025年4月14日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。