数据集概述
本数据集为西班牙语教育场景下的问答生成(QAG)任务构建,包含与西班牙大学入学考试(EVAU)课程对齐的人工标注数据、文学及法律领域自动生成数据,以及经师生验证的试点研究子集,支持多场景QAG模型开发与评估。
文件详解
该数据集包含四类结构化数据文件,具体说明如下:
- EVAU课程对齐数据
- 文件名称:evau/docs/EvAU_QA.csv
- 文件格式:CSV
- 字段:question(问题)、answer(答案)、subject(学科)、difficulty(难度)
- 说明:人工筛选的EVAU考试相关问答对,用于教育QAG任务基准测试
- 《堂吉诃德》文学数据
- 文件名称:quijote/docs/Quijote_QA.csv
- 文件格式:CSV
- 字段:question(问题)、answer(答案)、chapter(章节)、difficulty(难度)
- 说明:从《堂吉诃德》自动生成的问答对,用于文学文本QAG性能评估
- 法律FAQ数据
- 文件名称:legal_faqs/docs/Legal_QA.csv
- 文件格式:CSV
- 字段:question(问题)、answer(答案)、law_reference(法律参考)
- 说明:从西班牙法律FAQ中提取的问答对,用于法律行政场景QAG测试
- 试点研究验证数据
- 文件名称:exams/exams_QA_validated.json
- 文件格式:JSON
- 内容:含923条经师生验证的自动生成问答对,包含清晰度、复杂度、教学价值评分及自由文本反馈
适用场景
- 教育AI开发:构建西班牙语课程对齐的智能问答系统、自动出题工具
- 自然语言处理研究:训练与评估多领域西班牙语问答生成模型
- 教学资源建设:辅助教师生成个性化练习题、补充阅读材料问答
- 跨领域NLP应用:探索法律、文学等专业领域的自动问答技术迁移