矩形椭圆多模态上下文图像生成数据集-ignazio
数据来源:互联网公开数据
标签:矩形,椭圆,多模态,图像生成,文本描述,机器学习,算法测试
数据概述:
本数据集旨在测试《Picture What You Read》论文中提出的算法的泛化能力。该论文在2019年的澳大利亚珀斯DICTA国际会议上发表。数据集包含文本描述和对应的矩形和椭圆形彩色图像,用于训练和验证模型,使其能够根据输入的文本描述生成相应的图像。
数据集分为训练集、验证集和测试集。测试集中包含从未在训练集和验证集中使用过的颜色描述的矩形和椭圆:红色和蓝色矩形以及黄色和绿色椭圆。
每个CSV文件包含三列:第一列是文本描述,第二列是类别标签,第三列是与文本对应的真值图像路径。数据集使用竖线(|)作为分隔符。
数据用途概述:
该数据集适用于图像生成算法的训练和测试、图像识别研究、多模态学习等场景。研究者可以利用此数据集评估算法在处理未见过的文本描述时的泛化能力;教育者可以使用该数据集演示文本到图像的生成过程;开发者可以将其应用于图像生成模型的开发和优化。此外,该数据集还适用于自然语言处理与计算机视觉交叉领域的研究。
示例:
文本描述:big ellipse color blue of size 80 x 83 in position [ 20 , 17 ]
类别标签:ellipse
图像路径:val/ellipse/0.jpg
文本描述:small ellipse of size 55 x 57 in position [ 45 , 43 ]
类别标签:ellipse
图像路径:val/ellipse/1.jpg
引用:
如果您使用了此数据集,请引用以下论文:
@INPROCEEDINGS{Gallo:2019:DICTA,
author={I. Gallo 和 S. Nawaz 和 A. Calefati 和 R. La Grassa 和 N. Landro},
booktitle={2019国际数字图像计算: 技术与应用会议 (DICTA)},
title={Picture What You Read},
year={2019},
month={Dec},
}