数据集

Instagram用户真实性评估数据集-社交媒体用户行为分析-2019年9月-krpurba

数据来源：互联网公开数据

标签：Instagram, 用户行为, 社交媒体, 虚假用户, 真实用户, 机器学习, 数据集, 社交网络分析, 用户画像, 欺诈检测

数据概述：本数据集旨在研究和分析Instagram用户的真实性，包含真实用户和虚假用户（包括购买粉丝、垃圾信息发布者等）。数据通过网络爬虫从第三方Instagram网站收集，采集了用户的元数据以及最多12条最新的媒体帖子。数据收集时间为2019年9月1日至2019年9月20日。

真实用户样本来源于Instagram上24个私立大学（8个印尼、8个马来西亚、8个澳大利亚）官方账号的关注者。为了减少用户数量，采用了基于来源大学的比例随机抽样。所有私密账号均被移除，总共移除了31,335个用户，剩余32,460个公开用户。虚假用户由人工标注。

数据集包含以下字段：

pos (发布数量)：用户总共发布的帖子数量。
flg (关注数量)：用户关注的账号数量。
flr (粉丝数量)：用户的粉丝数量。
bl (简介长度)：用户个人简介的字符长度。
pic (头像可用性)：如果用户没有头像，则值为0；如果有头像，则值为1。
lin (链接可用性)：如果用户没有外部链接，则值为0；如果有外部链接，则值为1。
cl (平均标题长度)：媒体帖子标题的平均字符长度。
cz (标题零值比例)：标题字符长度接近于零（<=3）的帖子所占的比例 (0.0 到 1.0)。
ni (非图像比例)：非图像媒体（视频、轮播）所占的比例 (0.0 到 1.0)。
erl (互动率-点赞)：点赞互动率，计算方式为(点赞数) / (媒体数) / (粉丝数)。
erc (互动率-评论)：评论互动率，计算方式与点赞互动率类似。
lt (位置标签比例)：被标记位置的帖子所占的比例 (0.0 到 1.0)。
hc (平均话题标签数量)：帖子中使用的平均话题标签数量。
pr (推广关键词)：话题标签中推广关键词（如 {regrann, contest, repost, giveaway, mention, share, give away, quiz}）的平均使用率。
fo (粉丝关键词)：话题标签中粉丝获取关键词（如 {follow, like, folback, follback, f4f}）的平均使用率。
cs (余弦相似度)：用户所有帖子两两之间的平均余弦相似度。
pi (帖子间隔)：帖子之间的平均时间间隔（以小时为单位）。

用户类别：

2类用户标签：r (真实/真实用户), f (虚假用户/购买粉丝)
4类用户标签：r (真实用户), a (活跃虚假用户), i (不活跃虚假用户), s (垃圾信息发布者虚假用户)。其中，虚假用户的三个类别 (a, i, s) 由人工标注。

数据用途概述：该数据集可用于社交媒体用户行为分析、虚假用户检测、机器学习模型训练、用户画像构建等多种应用场景。研究人员可以使用此数据进行分类，识别虚假用户；企业可以利用此数据进行市场营销策略优化和风险控制；开发者可以基于此数据集构建社交媒体分析工具。

请注意：如果您在任何工作中使用了此数据集，请引用以下论文：K. R. Purba, D. Asirvatham and R. K. Murugesan, "Classification of instagram fake users using supervised machine learning algorithms," International Journal of Electrical and Computer Engineering (IJECE), vol. 10, no. 3, pp. 2763-2772, 2020.

数据与资源

versions_20250407085932.zipZIP
3.21 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	3.21 MiB
最后更新	2025年4月21日
创建于	2025年4月21日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

Instagram用户真实性评估数据集-社交媒体用户行为分析-2019年9月-krpurba

数据与资源

附加信息

注册成功！