数据集概述
本数据集为罗马尼亚语表情包数据集RoMEMES,采集自公共社交媒体平台,包含表情包的文本、图像及相关标注信息。数据经人工标注罗马尼亚语文本、图像复杂度、情感倾向、政治内容属性,文本部分通过RELATE平台自动标注词性、词元及依存句法,同时包含元数据。
文件详解
- metadata.tsv
- 文件格式:TSV
- 字段映射介绍:包含数据集元数据与人工标注信息,第一列为文件ID,其余字段涵盖罗马尼亚语文本、图像复杂度、情感、政治内容等标注内容及元数据。
- text文件夹
- 文件格式:TXT
- 内容说明:包含以ID命名的文本文件(命名规则:ID.txt),存储表情包关联的罗马尼亚语文本内容。
- images文件夹
- 文件格式:原文件扩展名(如JPG、PNG等,以metadata.tsv中记录的mime/type为准)
- 内容说明:包含以ID和原扩展名命名的图像文件(命名规则:ID.extension),存储表情包原始图像。
- conllup文件夹
- 文件格式:CONLLUP
- 内容说明:包含以ID命名的自动标注文件(命名规则:ID.conllup),存储经RELATE平台生成的文本自动标注结果,涵盖词性、词元、依存句法分析信息。
数据来源
公共社交媒体平台
适用场景
- 多模态情感分析: 结合文本情感标注与图像内容,研究罗马尼亚语表情包的情感表达机制。
- 社交媒体内容研究: 分析罗马尼亚语社交媒体中表情包的传播特征、主题分布及用户行为。
- 自然语言处理模型训练: 利用自动标注的词性、依存句法数据,训练或优化罗马尼亚语NLP模型。
- 跨文化表情包对比: 与其他语言表情包数据对比,探究文化差异对表情包创作与使用的影响。
- 政治传播分析: 基于政治内容标注,研究表情包在罗马尼亚政治话题传播中的作用。