教育西班牙语问答数据集_ESQAD

数据集概述

本数据集为西班牙语教育场景下的问答生成(QAG)任务构建,包含与西班牙大学入学考试(EVAU)课程对齐的人工标注数据、文学及法律领域自动生成数据,以及经师生验证的试点研究子集,支持多场景QAG模型开发与评估。

文件详解

该数据集包含四类结构化数据文件,具体说明如下: - EVAU课程对齐数据 - 文件名称:evau/docs/EvAU_QA.csv - 文件格式:CSV - 字段:question(问题)、answer(答案)、subject(学科)、difficulty(难度) - 说明:人工筛选的EVAU考试相关问答对,用于教育QAG任务基准测试 - 《堂吉诃德》文学数据 - 文件名称:quijote/docs/Quijote_QA.csv - 文件格式:CSV - 字段:question(问题)、answer(答案)、chapter(章节)、difficulty(难度) - 说明:从《堂吉诃德》自动生成的问答对,用于文学文本QAG性能评估 - 法律FAQ数据 - 文件名称:legal_faqs/docs/Legal_QA.csv - 文件格式:CSV - 字段:question(问题)、answer(答案)、law_reference(法律参考) - 说明:从西班牙法律FAQ中提取的问答对,用于法律行政场景QAG测试 - 试点研究验证数据 - 文件名称:exams/exams_QA_validated.json - 文件格式:JSON - 内容:含923条经师生验证的自动生成问答对,包含清晰度、复杂度、教学价值评分及自由文本反馈

适用场景

  • 教育AI开发:构建西班牙语课程对齐的智能问答系统、自动出题工具
  • 自然语言处理研究:训练与评估多领域西班牙语问答生成模型
  • 教学资源建设:辅助教师生成个性化练习题、补充阅读材料问答
  • 跨领域NLP应用:探索法律、文学等专业领域的自动问答技术迁移
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 644.76 MiB
最后更新 2025年12月19日
创建于 2025年12月19日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。