面部表情比较数据集-表情识别-2018-youssef2020
数据来源:互联网公开数据
标签:面部表情,比较,数据集,深度学习,机器学习,图像处理,情感分析,人工智能
数据概述:
本数据集包含由三张面部图像及其对应的注释组成的三元组,注释指示三张图像中哪两张在面部表情方面最为相似。据我们所知,这是首个大规模包含此类表情比较注释的面部数据集。
数据内容:数据以CSV文件形式发布。CSV文件中的每一行对应一个数据样本,包含三张面部图像及其注释(来自多位人类标注者),标注指示三张图像中哪两张在表情方面最为相似。
每个面部图像通过图像URL和面部边界框(左上角和右下角坐标)指定。用户需要使用提供的URL下载图像,然后使用提供的边界框从下载的图像中裁剪出面部区域。
注意:由于部分图像的所有者可能将它们从公共领域移除,因此在下载时某些图像可能不可用。在这种情况下,下载工具可能会下载一个占位图像代替原始图像。建议用户运行面部检测算法验证下载的图像中确实存在指定位置的面部。
每个注释是一个1到3之间的整数。值为1表示三元组中第二和第三张图像的表情在视觉上比第一张图像的表情更为相似;值为2表示第一和第三张图像的表情在视觉上比第二张图像的表情更为相似;值为3表示第一和第二张图像的表情在视觉上比第三张图像的表情更为相似。每位参与标注过程的标注者都有一个唯一的ID。大多数样本由六位人类评分者标注,但有少数样本的标注数多于六次。
每个三元组还被分类为以下三种类型之一:单类别三元组、双类别三元组和三类别三元组。请参阅下一节了解这些类型的定义。
CSV文件中的每一行包含以下字段:
- 图像1的URL(字符串)
- 图像1中面部边界框左上角列坐标,归一化为图像宽度(浮点数)
- 图像1中面部边界框右下角列坐标,归一化为图像宽度(浮点数)
- 图像1中面部边界框左上角行坐标,归一化为图像高度(浮点数)
- 图像1中面部边界框右下角行坐标,归一化为图像高度(浮点数)
- 图像2的URL(字符串)
- 图像2中面部边界框左上角列坐标,归一化为图像宽度(浮点数)
- 图像2中面部边界框右下角列坐标,归一化为图像宽度(浮点数)
- 图像2中面部边界框左上角行坐标,归一化为图像高度(浮点数)
- 图像2中面部边界框右下角行坐标,归一化为图像高度(浮点数)
- 图像3的URL(字符串)
- 图像3中面部边界框左上角列坐标,归一化为图像宽度(浮点数)
- 图像3中面部边界框右下角列坐标,归一化为图像宽度(浮点数)
- 图像3中面部边界框左上角行坐标,归一化为图像高度(浮点数)
- 图像3中面部边界框右下角行坐标,归一化为图像高度(浮点数)
- 三元组类型(字符串)- 表示三元组中表情变化的类型
- 标注者1 ID(字符串)- 由随机数字组成的字符串,可用于查找由特定标注者标注的所有样本
- 标注1(整数)
- 标注者2 ID(字符串)
- 标注2(整数)
- ...
数据收集方式:
本数据集中的三元组通过对一个内部面部数据集中图像进行采样生成,每个图像具有一个或多个以下情绪标签:愉快、愤怒、敬畏、无聊、集中、困惑、沉思、轻蔑、满足、欲望、失望、厌恶、痛苦、怀疑、狂喜、喜悦、尴尬、恐惧、兴趣、爱、中性、疼痛、自豪、顿悟、解脱、悲伤、羞耻、惊讶、同情、胜利。为减少分类偏差的影响,我们采样图像以确保所有上述类别均有良好代表性。
每个三元组被展示给多位人类标注者,并要求他们从三张图像中挑选出视觉上最相似的两张图像。标注者被指示仅关注表情,忽略其他因素,如身份、性别、种族、姿态、年龄等。
本数据集特别关注三种类型的三元组:
- 单类别三元组:三张图像共享一个共同标签。
- 双类别三元组:仅有两张图像共享标签,第三张图像与另外两张图像均不共享标签。
- 三类别三元组:三张图像都不共享标签。
注意:面部数据集(从中采样三元组)中的图像并非完全标注,即一张图像可能没有适用于它的所有标签。当前的单类别、双类别和三类别三元组分类是基于现有标签进行的。因此,当前被分类为双类别或三类别三元组的图像,如果完全标注,可能并非真正的双类别或三类别三元组。
数据统计:
该数据集分为两个分区:
- 训练集:faceexp-comparison-data-train-public.csv
- 用于训练面部表情模型
- 测试集:faceexp-comparison-data-test-public.csv
- 用于评估训练模型
每个分区中的三元组和面部数量见下表:
引用:
如果您在工作中使用此数据集,请引用以下论文:R Vemulapalli, A Agarwala, “A Compact Embedding for Facial Expression Similarity”, CoRR, abs/1811.11283, 2018。
联系方式:
如有关于数据集的任何问题,请联系Raviteja Vemulapalli (ravitejavemu@google.com) 或 Aseem Agarwala (aseemaa@google.com)。
致谢:
我们感谢Google的Gautam Prasad、Ting Liu、Brendan Jou、Alan Cowen、Florian Schroff和Hartwig Adam在数据收集过程中的支持和建议。