PQB_EQA_Based_单问题平衡具身问答基准测试完整数据

数据集概述

该数据集是一个用于验证具身问答(EQA)模型视觉数据利用能力的基准数据集。核心设计为每个问题与两个不同环境配对,产生不同答案,实现单问题层面的答案分布平衡,以此区分模型是基于环境感知回答还是依赖通用语言模型的猜测,为评估EQA模型的环境 grounding 能力提供依据。

文件详解

  • 压缩文件组(.zip格式):
  • action_logs.zip:可能包含模型在环境中执行动作的日志数据
  • images.zip:可能包含环境相关的视觉图像数据
  • pqb_eqa_corners.zip:可能包含数据集特定场景(如角落环境)的相关数据
  • environments_for_release.zip:可能包含供发布使用的环境配置或场景文件
  • 数据文件:
  • questions_environments_answers.xlsx(Excel格式):可能包含问题、对应环境及标准答案的映射关系数据

适用场景

  • 具身智能研究:评估EQA模型对环境视觉信息的实际利用能力
  • 自然语言处理:验证语言模型在具身任务中是否依赖环境感知而非盲猜
  • 基准测试开发:为区分盲模型与grounded模型提供标准化测试数据集
  • 计算机视觉与语言融合研究:分析视觉-语言模型在动态环境中的决策逻辑
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 279.89 MiB
最后更新 2025年12月19日
创建于 2025年12月19日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。