全球社交平台Pinterest热门内容数据集
数据来源:互联网公开数据
标签:内容分析, 图像分析, 自然语言处理, 社交媒体, 趋势分析, 图网络分析
数据集简介:
本数据集汇总了Pinterest平台上高人气内容(Pins)的结构化信息,包含图像内容、文本描述、标题信息与受欢迎程度(Repin次数)等关键指标。该数据集由Oneli Wickramasinghe发布,旨在支持多种数据科学应用,包括自然语言处理(NLP)、图像分析、图结构建模与趋势识别等。通过构建内容相似度图(nxGraph)并结合图像统计特征,该数据集提供一个多模态社交媒体内容分析的综合视角。
字段定义:
ID:每条Pin的唯一标识符
Title:Pin标题,包含内容关键词
Description:Pin文本描述,提供内容语义信息
Repin Count:被转Pin的次数,衡量内容的受欢迎程度
图结构说明(nxGraph):
边特征(Edges):
Description similarities:基于 Word2Vec(Google News 300)计算的描述相似度
Title similarities:基于 Word2Vec 模型计算的标题相似度
节点特征(Nodes):
图像统计特征:由 sklearn.stats.describe 提取,如均值、方差、最大值等
文本字段关联特征:如Repin Count、标题长度、关键词数量等
图像说明:
图像以Pin ID为索引
所有图像均已统一缩放至64×64像素大小,便于批量处理与视觉建模
可用于深度学习、图像聚类、视觉相似度评估等任务
数据特征:
数据类型:多模态数据(文本 + 图像 + 图结构)
数据来源:公开的Pinterest热门内容,符合平台数据使用政策
数据规模:具体样本量未标明,字段丰富
数据格式:结构化表格 + 图像文件 + 图结构(NetworkX格式)
适用场景:
文本挖掘与情感分析(NLP)
社交内容传播分析与推荐系统构建
图像聚类与内容风格识别
图神经网络(GNN)实验与内容相似性建模
Pinterest 影响力用户趋势与标签演变分析