数据集

TikTok视频字幕与误导信息分类数据集

TikTok视频字幕与误导信息分类数据集数据来源：互联网公开数据
标签：短视频, 社交媒体, 误导信息, 内容审核, 自然语言处理, 数据标注, 机器学习, 用户互动

数据概述
本数据集包含了来自 TikTok 平台的视频字幕信息、用户互动数据以及相关标注信息，旨在支持研究者和开发者学习如何基于视频特征（如评论、点赞、观看量等）分类和识别误导性内容。数据集的每个记录都包含以下字段：
- claim_status：视频内容是否包含误导信息的标注，例如“真实”、“误导”或“未知”。
- video_id：视频的唯一标识符，用于定位具体的视频内容。
- video_duration_sec：视频的时长（以秒为单位），反映了视频的长度信息。
- video_transcription_text：视频的字幕文本，是视频内容的核心部分，可用于自然语言处理分析。
- verified_status：视频内容是否经过核实的标注，用于评估内容的真实性和可信度。
- author_ban_status：视频发布者的账号状态，例如是否被封禁，可用于分析误导信息的发布者特征。
- video_view_count：视频的观看次数，反映了视频的受欢迎程度。
- video_like_count：视频的点赞次数，反映了用户对视频内容的正面反馈。
- video_share_count：视频的分享次数，反映了内容的传播范围。
- video_download_count：视频的下载次数，反映了用户对内容的保存意愿。
- video_comment_count：视频的评论次数，反映了用户互动的活跃程度。

数据用途概述
该数据集适用于多种场景，主要集中在误导信息识别、内容审核、社交媒体分析和自然语言处理等领域：
1. 误导信息分类：研究者可以利用数据集中的标注信息（如 claim_status 和 verified_status），结合文本特征和用户互动数据，开发机器学习模型来识别和分类误导性内容。
2. 社交媒体内容分析：通过分析用户互动数据（如观看量、点赞数、评论数等），研究人员可以探究短视频平台上的内容传播规律和用户行为模式。
3. 自然语言处理任务：视频字幕文本（video_transcription_text）为文本分析提供了丰富的数据来源，可用于文本分类、情感分析、主题提取等任务。
4. 内容审核与风险管理：社交媒体平台可以基于此类数据集，开发自动化工具以检测和过滤误导性内容，提升平台内容的安全性和可信度。
5. 用户行为研究：通过分析发布者状态（如 author_ban_status）和用户互动数据，研究者可以深入了解误导信息的传播者特征及其行为模式。

数据来源说明
该数据集来源于公开的互联网数据，具体数据集链接为：https://github.com/GoogleCloudPlatform/training-data-analyst。数据集的构建和标注经过了严格的质量控制，确保数据的可靠性和可用性。

注意事项
1. 数据隐私：数据集中不包含用户的敏感信息，所有内容均已脱敏处理，符合数据隐私保护要求。
2. 数据标注质量：尽管数据标注经过了初步审核，但可能存在一定的标注误差，使用时需结合实际情况进行验证。
3. 适用范围：数据集内容基于特定时间段和平台的视频数据，研究结果可能不完全适用于其他场景或时间范围。

通过使用本数据集，研究者和开发者可以更深入地理解社交媒体内容的传播机制，提升误导信息识别能力，并为社交媒体平台的内容管理提供技术支持。

数据与资源

TikTok视频字幕与误导信息分类数据集.zipZIP
0.77 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	0.77 MiB
最后更新	2025年4月14日
创建于	2025年4月14日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

TikTok视频字幕与误导信息分类数据集

数据与资源

附加信息

注册成功！