数据集概述
本数据集为评估语言模型从事件语义描述生成用户活动标签的能力而构建,包含30项活动(10项含2个事件、10项含3个事件、10项含4个事件),通过余弦相似度对比模型生成标签与人工标注标签的准确性,支持用户界面交互活动的标签推理研究。
文件详解
- screenshots_&_soms.zip
- 文件格式:ZIP
- 内容说明:包含所有事件关联的截图文件,以及对应的屏幕对象模型(Screen Object Models),后者记录了截图中UI组件的层级关系(从Screen/Application到Icon/Text,含Container、Sidebar等中间组件)
- evaluation_data.csv
- 文件格式:CSV
- 字段映射:
- ScreenID:活动唯一标识符(同一活动内事件共享相同ID)
- Screenshot:事件对应的截图文件名
- EventType:用户输入类型(Left Click/Keyboard)
- Text:Keyboard类型事件的输入文本(Left Click类型为空)
- EventDescription:用户操作的语义描述(含操作对象与UI元素)
- GroundTruth:人工标注的活动标签
数据来源
论文“Enriching Process-Related UI Logs via Screenshot-Based Activity Labeling Using Vision-Language Models”
适用场景
- 语言模型活动标签推理能力评估:对比不同模型生成的活动标签与人工标注的余弦相似度,验证模型性能
- UI交互事件语义理解研究:分析事件描述与活动标签的映射关系,优化语义解析逻辑
- 人机交互活动分类:基于事件序列与截图信息,构建用户界面交互活动的自动分类体系
- 视觉语言模型融合应用:探索截图视觉信息与事件语义描述结合的活动标签生成方案