科学与非科学问题假设测试数据集

科学与非科学问题假设测试数据集 数据来源:互联网公开数据 标签:假设测试,科学问题,非科学问题,机器学习,数据集,评估,RAG

数据概述: 本数据集旨在用于测试以下假设:是否应该仅在与科学相关的问题上进行训练。数据集包含6000个示例,分别采样自维基百科不同类别和仅科学相关类别的摘要。具体来说,6000_all_categories_questions.csv文件包含从所有类别随机采样的示例,而6000_wiki_en_sci_questions.csv文件则仅包含科学相关类别的问题。这些数据集允许研究人员在不同数据集上进行训练并比较结果。在v2版本中,数据集新增了用于创建问题的维基百科摘录,这有助于提高训练效果。

数据用途概述: 该数据集适用于假设测试、机器学习模型评估和RAG(检索增强生成)管道的训练。研究人员可以通过比较在不同数据集上的训练结果来评估数据多样性对模型性能的影响。此外,数据集也适合用于研究科学与非科学问题在机器学习训练中的应用,帮助识别最佳的训练策略。

packageimg

数据与资源

附加信息

字段
版本 1.0
最后更新 四月 14, 2025, 21:33 (UTC)
创建于 四月 14, 2025, 21:32 (UTC)
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。