数据集概述
该数据集是一个用于验证具身问答(EQA)模型视觉数据利用能力的基准数据集。核心设计为每个问题与两个不同环境配对,产生不同答案,实现单问题层面的答案分布平衡,以此区分模型是基于环境感知回答还是依赖通用语言模型的猜测,为评估EQA模型的环境 grounding 能力提供依据。
文件详解
- 压缩文件组(.zip格式):
- action_logs.zip:可能包含模型在环境中执行动作的日志数据
- images.zip:可能包含环境相关的视觉图像数据
- pqb_eqa_corners.zip:可能包含数据集特定场景(如角落环境)的相关数据
- environments_for_release.zip:可能包含供发布使用的环境配置或场景文件
- 数据文件:
- questions_environments_answers.xlsx(Excel格式):可能包含问题、对应环境及标准答案的映射关系数据
适用场景
- 具身智能研究:评估EQA模型对环境视觉信息的实际利用能力
- 自然语言处理:验证语言模型在具身任务中是否依赖环境感知而非盲猜
- 基准测试开发:为区分盲模型与grounded模型提供标准化测试数据集
- 计算机视觉与语言融合研究:分析视觉-语言模型在动态环境中的决策逻辑