GerMedIQ德语医疗问诊问答语料库

数据集概述

该数据集包含四千五百二十四条德语医疗领域的模拟问答对,源自一百一十六个标准化问诊问题,由三十九名非患者参与者回答。问题提取自十二项基础问诊问卷及EORTC生活质量问卷等工具,同时包含十八个大中小型语言模型生成的零样本合成回答。

文件详解

  • 根目录文件:Jhofenbitzer/GerMedIQ-Corpus-v2.0.0.zip(ZIP格式),为数据集压缩包
  • 压缩包内目录及内容:
  • Analysis:含R Markdown格式的统计评估与绘图文件
  • CorpusFiles:含CSV格式的GerMedIQ语料文件
  • EvaluationResults:含评估结果文件
  • Judgments:含LLM判断与人类评分数据
  • Scripts:含所有使用的脚本文件

适用场景

  • 医疗NLP模型训练:用于德语医疗对话系统、问答系统的开发与优化
  • 问诊数据研究:分析标准化医疗问诊问题的回答模式与特征
  • 语言模型评估:评估大语言模型在医疗领域零样本生成回答的质量
  • 医疗文本分析:开展德语医疗文本的语义理解、意图识别等研究
  • 医疗AI应用:为智能问诊辅助工具、远程医疗系统提供数据支持
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 1.33 MiB
最后更新 2025年12月12日
创建于 2025年12月12日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。