全球社交平台Pinterest热门内容数据集

全球社交平台Pinterest热门内容数据集

数据来源:互联网公开数据

标签:内容分析, 图像分析, 自然语言处理, 社交媒体, 趋势分析, 图网络分析

数据集简介: 本数据集汇总了Pinterest平台上高人气内容(Pins)的结构化信息,包含图像内容、文本描述、标题信息与受欢迎程度(Repin次数)等关键指标。该数据集由Oneli Wickramasinghe发布,旨在支持多种数据科学应用,包括自然语言处理(NLP)、图像分析、图结构建模与趋势识别等。通过构建内容相似度图(nxGraph)并结合图像统计特征,该数据集提供一个多模态社交媒体内容分析的综合视角。

字段定义:

ID:每条Pin的唯一标识符

Title:Pin标题,包含内容关键词

Description:Pin文本描述,提供内容语义信息

Repin Count:被转Pin的次数,衡量内容的受欢迎程度

图结构说明(nxGraph):

边特征(Edges):

Description similarities:基于 Word2Vec(Google News 300)计算的描述相似度

Title similarities:基于 Word2Vec 模型计算的标题相似度

节点特征(Nodes):

图像统计特征:由 sklearn.stats.describe 提取,如均值、方差、最大值等

文本字段关联特征:如Repin Count、标题长度、关键词数量等

图像说明:

图像以Pin ID为索引

所有图像均已统一缩放至64×64像素大小,便于批量处理与视觉建模

可用于深度学习、图像聚类、视觉相似度评估等任务

数据特征:

数据类型:多模态数据(文本 + 图像 + 图结构)

数据来源:公开的Pinterest热门内容,符合平台数据使用政策

数据规模:具体样本量未标明,字段丰富

数据格式:结构化表格 + 图像文件 + 图结构(NetworkX格式)

适用场景:

文本挖掘与情感分析(NLP)

社交内容传播分析与推荐系统构建

图像聚类与内容风格识别

图神经网络(GNN)实验与内容相似性建模

Pinterest 影响力用户趋势与标签演变分析

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 18.16 MiB
最后更新 2025年4月15日
创建于 2025年4月15日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。