-
视觉语言导航优先级地图数据集
2025年12月18日 30 18 3
数据集概述 该数据集包含支持视觉语言导航优先级地图(PM-VLN)模块研究的相关数据,涵盖两个辅助任务数据集:TR-NY-PIT-central(城市路径轨迹集)与MC-10(多模态地标样本集),还提供曼哈顿路径轨迹及Touchdown任务语言标记数据,用于模型训练与评估。 文件详解 文件名称:datasets_details.pdf 文件格式:PDF...
-
ARASAAC黑白象形图数据集第9部分
2025年12月18日 30 201 47
数据集概述 该数据集为ARASAAC项目的黑白象形图资源,包含一千张PNG格式的图片,由Sergio Palao创建,涉及生物、实验、医疗、图像视觉、音频等多领域语义关键词,无目录结构,可直接用于相关研究或应用场景。 文件详解 文件类型:.png格式图片文件,共1000个,占比百分之百...
-
ARASAAC彩色象形图第四部分_共16部分
2025年12月14日 30 167 147
数据集概述 该数据集包含由Sergio Palao为ARASAAC创建的黑白象形图,属于16部分系列中的第四部分,共计一千个PNG格式文件,无目录层级结构,未提供数据分割信息。 文件详解 文件构成:共计一千个文件,均为PNG格式,占比百分之百...
-
Zenodo_DCASE2024Task7_Based_文本提示环境声音合成完整数据集
2025年12月7日 30 69 55
数据集概述 本数据集包含三百一十组音频片段与对应文本提示,音频时长均为四秒。所有内容经人工精心设计,支持环境声音场景合成任务的生成模型开发与评估。数据分为开发集与评估集,结构清晰,可实现对生成模型的可控量化评估。 文件详解 数据集以压缩包形式提供,解压后包含以下目录结构: - 开发集目录(dev/): - audio/:存放开发集的WAV格式音频文件...
-
图像描述多模态Tamil数据集
2025年10月11日 30 27 7
图像描述多模态Tamil数据集_Image_Description_Multimodal_Tamil_Dataset 数据来源:互联网公开数据 标签:图像描述, 多模态, 计算机视觉, 自然语言处理, 泰米尔语, 图像标注, 文本生成, 跨模态学习 数据概述:...
-
图像检索与文本匹配数据集ImageRetrievalandTextMatchingDataset-mariaonatskaya
2025年5月17日 30 20 11
图像检索与文本匹配数据集ImageRetrievalandTextMatchingDataset-mariaonatskaya 数据来源:互联网公开数据 标签:图像检索, 文本匹配, 跨模态学习, 计算机视觉, 自然语言处理, 数据集, 图像识别, 深度学习 数据概述:...
-
图像描述实体数值预测数据集ImageDescriptionEntityValuePredictionDataset-farhakouser
2025年5月20日 30 157 125
图像描述实体数值预测数据集ImageDescriptionEntityValuePredictionDataset-farhakouser 数据来源:互联网公开数据 标签:图像识别, 实体识别, 数值预测, 计算机视觉, 数据标注, 机器学习, 文本分析, 跨模态学习 数据概述:...
-
图像检索与文本匹配数据集ImageRetrievalandTextMatchingDataset-dianasivkova
2025年5月18日 30 119 85
图像检索与文本匹配数据集ImageRetrievalandTextMatchingDataset-dianasivkova 数据来源:互联网公开数据 标签:图像检索, 文本匹配, 跨模态学习, 计算机视觉, 自然语言处理, 数据集构建, 图像识别, 深度学习 数据概述:...
-
文字图片多模态内容数据集MultimodalContentDatasetofTextandImages-i191796majid
2025年4月29日 30 24 7
文字图片多模态内容数据集MultimodalContentDatasetofTextandImages-i191796majid 数据来源:互联网公开数据 标签:多模态数据, 图像识别, 文本分析, 图像文本匹配, 内容理解, 数据标注, 跨模态学习, 图像检索 数据概述: 该数据集包含文本描述和对应图像路径,记录了文字与图像之间的关联。主要特征如下:...



