科学问答数据集-物理-化学-生物等多学科知识测试数据集

科学问答数据集-物理-化学-生物等多学科知识测试数据集 数据来源:互联网公开数据 标签:科学,问答,教育,考试,物理,化学,生物,多选题,机器学习,自然语言处理 数据概述: 本数据集SciQ是一个用于科学问题解答的数据集,包含了13,679道众包生成的科学考试题目,涵盖物理、化学、生物等多个学科。每道题目均为多选题形式,包含4个选项。对于大多数题目,数据集还提供了支持正确答案的附加段落,作为佐证。

数据文件结构: 数据集被划分为train.csv、validation.csv和test.csv三个文件,分别用于训练、验证和测试。每个文件包含以下字段:

question:问题文本(字符串) distractor1:干扰选项1(字符串) distractor2:干扰选项2(字符串) distractor3:干扰选项3(字符串) correct_answer:正确答案(字符串) support:支持问题解答的文本(字符串)

数据用途概述: 该数据集主要用于训练和评估科学问题解答模型,可用于以下场景:

训练模型解答科学问题:可用于构建能够理解和回答科学问题的机器学习模型。 科学知识评估:可用于评估学生或个人的科学知识水平。 教育辅助:可用于开发教育应用程序,帮助学生学习和复习科学知识。 自然语言处理研究:可用于研究自然语言理解和推理能力。

数据集的使用遵循CC0 1.0通用许可,允许自由复制、修改、分发和表演,即使用于商业目的,无需获得许可。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 2.42 MiB
最后更新 2025年4月14日
创建于 2025年4月14日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。