科学问答数据集-物理-化学-生物等多学科知识测试数据集
数据来源:互联网公开数据
标签:科学,问答,教育,考试,物理,化学,生物,多选题,机器学习,自然语言处理
数据概述:
本数据集SciQ是一个用于科学问题解答的数据集,包含了13,679道众包生成的科学考试题目,涵盖物理、化学、生物等多个学科。每道题目均为多选题形式,包含4个选项。对于大多数题目,数据集还提供了支持正确答案的附加段落,作为佐证。
数据文件结构:
数据集被划分为train.csv、validation.csv和test.csv三个文件,分别用于训练、验证和测试。每个文件包含以下字段:
question:问题文本(字符串)
distractor1:干扰选项1(字符串)
distractor2:干扰选项2(字符串)
distractor3:干扰选项3(字符串)
correct_answer:正确答案(字符串)
support:支持问题解答的文本(字符串)
数据用途概述:
该数据集主要用于训练和评估科学问题解答模型,可用于以下场景:
训练模型解答科学问题:可用于构建能够理解和回答科学问题的机器学习模型。
科学知识评估:可用于评估学生或个人的科学知识水平。
教育辅助:可用于开发教育应用程序,帮助学生学习和复习科学知识。
自然语言处理研究:可用于研究自然语言理解和推理能力。
数据集的使用遵循CC0 1.0通用许可,允许自由复制、修改、分发和表演,即使用于商业目的,无需获得许可。