RoMEMES_Source_罗马尼亚社交媒体表情包多模态标注数据

数据集概述

本数据集为罗马尼亚语表情包数据集RoMEMES,采集自公共社交媒体平台,包含表情包的文本、图像及相关标注信息。数据经人工标注罗马尼亚语文本、图像复杂度、情感倾向、政治内容属性,文本部分通过RELATE平台自动标注词性、词元及依存句法,同时包含元数据。

文件详解

  • metadata.tsv
  • 文件格式:TSV
  • 字段映射介绍:包含数据集元数据与人工标注信息,第一列为文件ID,其余字段涵盖罗马尼亚语文本、图像复杂度、情感、政治内容等标注内容及元数据。
  • text文件夹
  • 文件格式:TXT
  • 内容说明:包含以ID命名的文本文件(命名规则:ID.txt),存储表情包关联的罗马尼亚语文本内容。
  • images文件夹
  • 文件格式:原文件扩展名(如JPG、PNG等,以metadata.tsv中记录的mime/type为准)
  • 内容说明:包含以ID和原扩展名命名的图像文件(命名规则:ID.extension),存储表情包原始图像。
  • conllup文件夹
  • 文件格式:CONLLUP
  • 内容说明:包含以ID命名的自动标注文件(命名规则:ID.conllup),存储经RELATE平台生成的文本自动标注结果,涵盖词性、词元、依存句法分析信息。

数据来源

公共社交媒体平台

适用场景

  • 多模态情感分析: 结合文本情感标注与图像内容,研究罗马尼亚语表情包的情感表达机制。
  • 社交媒体内容研究: 分析罗马尼亚语社交媒体中表情包的传播特征、主题分布及用户行为。
  • 自然语言处理模型训练: 利用自动标注的词性、依存句法数据,训练或优化罗马尼亚语NLP模型。
  • 跨文化表情包对比: 与其他语言表情包数据对比,探究文化差异对表情包创作与使用的影响。
  • 政治传播分析: 基于政治内容标注,研究表情包在罗马尼亚政治话题传播中的作用。
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 80.73 MiB
最后更新 2026年1月27日
创建于 2026年1月27日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。