虚拟YouTuber直播互动数据分析数据集-2021至今

虚拟YouTuber直播互动数据分析数据集-2021至今 数据来源:互联网公开数据 标签:VTuber,虚拟主播,直播数据,聊天记录,超级聊天,弹幕,社区互动,内容分析,文本挖掘,用户行为,情感分析 数据概述: 本数据集“VTuber 1B”是一个大规模的虚拟YouTuber(VTuber)直播互动数据集合,旨在用于学术研究。数据集包含超过10亿条直播聊天记录、超级聊天(Super Chat)信息以及管理事件(封禁/删除)数据。数据来源于虚拟主播直播间的实时互动,涵盖了Hololive、Nijisanji、774inc等多个虚拟主播团体。 数据的时间跨度: 聊天记录:自2021年1月15日起 超级聊天:自2021年3月16日起 数据更新频率: 至少每6个月更新一次。

数据集包含以下主要组成部分: VTuber 1B Elements(适用于统计可视化和探索性数据分析): channels.csv:频道索引,包含频道ID、名称、英文名称、所属团体、订阅数、视频数量、频道图标等信息。 chat_stats.csv:聊天统计数据,包含频道ID、时间段、聊天总数、会员聊天数、独立聊天者数量、独立会员数量、被封禁聊天者数量、被删除聊天数量等。 superchat_stats.csv:超级聊天统计数据,包含频道ID、时间段、超级聊天数量、独立超级聊天者数量、超级聊天总金额、平均超级聊天金额、消息总长度、平均消息长度、最常用货币、最常用颜色等。 VTuber 1B(适用于频率分析): chats_%Y-%m.parquet:直播聊天事件(超过1,000,000,000条) superchats_%Y-%m.parquet:超级聊天事件(超过4,000,000条) deletion_events.parquet:删除事件 ban_events.parquet:封禁事件 数据集中,封禁和删除事件分别对应markChatItemsByAuthorAsDeletedAction和markChatItemAsDeletedAction。 数据用途概述: 该数据集可用于多种研究,包括: 用户行为分析:研究VTuber观众的互动模式、参与度和社区动态。 情感分析:分析直播聊天记录中的情感表达。 垃圾信息检测和不良信息过滤:开发用于识别垃圾信息和有害言论的模型。 超级聊天分析:研究超级聊天行为,如金额、频率与内容之间的关系。 人口统计学可视化:分析观众的构成。 自然语言处理:训练神经语言模型,用于聊天内容生成,主题分析等。 此外,该数据集也适用于教育和培训,帮助学习者了解直播互动数据的分析方法。 注意事项: 匿名化处理:频道ID和作者频道ID已使用SHA-1哈希算法进行匿名化处理。 自定义表情符号:所有自定义表情符号均被替换为Unicode替换字符 (U+FFFD)。 重复的封禁和删除事件:来自多个管理员的针对同一用户或聊天的封禁和删除事件将被单独记录。为了简化分析,可以安全地忽略按时间顺序记录的第一行之外的所有行。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 0.8 MiB
最后更新 2025年4月15日
创建于 2025年4月15日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。