Tumblr帖子与博主的语义分析元数据

数据集概述

本数据集是首个公开的Tumblr平台数据,包含通过自举法收集的帖子与博主元数据,以及对文本帖子进行语义分析后提取的各类特征,为研究Tumblr内容生态提供支持。

文件详解

该数据集包含两个ZIP压缩文件,具体说明如下: - 核心数据文件: - Tumblr.zip: 包含Tumblr.sql、semtags.txt和README文件。 - Tumblr.sql: MySQL数据库脚本,创建8个数据表,包括博主信息(blogger、blogger_desc)、帖子信息(Posts、Post_desc)、语义分析结果(Document_Sentiment_Feature、Semantic_Tagging、Tone、Topic_Classification) - semtags.txt: 语义标签词典,基于UCREL语义分析系统(USAS)构建,用于帖子语义标注 - blogger_desc.zip: 可能包含博主描述相关的补充数据

适用场景

  • 社交媒体内容分析: 研究Tumblr平台上的帖子类型、主题分布与传播特征
  • 语义分析应用: 验证情感分析、主题分类、语气识别等语义模型在社交媒体文本中的效果
  • 用户行为研究: 分析博主互动模式(如提问权限、帖子数量)与用户生成内容的关系
  • 信息传播研究: 探索转发行为(rebloggedfrom字段)对内容扩散的影响机制
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 2.57 MiB
最后更新 2025年11月29日
创建于 2025年11月29日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。