数据集概述
本数据集围绕医学教育中使用大语言模型生成脚本一致性测试(SCT)题目展开,包含Excel格式的专家评估数据与Word格式的提示模板及生成题目文件。Excel表记录了基于5类腹痛场景生成的SCT题目,经专家小组按12项标准评估的结果;Word文档提供了生成题目所用的提示模板及ChatGPT-4、Claude 3(Sonnet)生成的SCT题目,总计2个文件。
文件详解
- Excel数据文件
- 文件名称:Dataset.xlsx
- 文件格式:XLSX
- 字段映射介绍:包含6列,分别为Scenario(场景:左下腹痛等5类)、Statement(专家评估用12项标准语句)、Label(12项标准对应的标签)、Model(大语言模型名称)、Response(专家评估结果:Yes/Uncertain/No)、Count(评估结果的频率)
- Word文档文件
- 文件名称:Prompt Template and Generated Script Concordance Test Items.docx
- 文件格式:DOCX
- 内容介绍:包含生成SCT题目的提示模板,以及ChatGPT-4和Claude 3(Sonnet)基于模板生成的SCT题目
数据来源
论文“Using Large Language Models to Generate Script Concordance Test in Medical Education: ChatGPT and Claude”
适用场景
- 医学教育评估工具开发:研究LLM生成SCT题目的质量与适用性,优化医学教育评估工具
- 大语言模型医学应用评估:分析ChatGPT-4、Claude 3在医学教育题目生成任务中的表现差异
- 专家共识机制研究:基于专家对12项标准的评估结果,探索医学教育评估中的专家共识形成规律
- 提示工程优化:通过提示模板与生成题目对比,优化LLM在医学特定任务中的提示设计