数据集

LLM科学考试数据集-扩展版-带上下文-NUM-SENTENCES-INCLUDE-15

LLM科学考试数据集-扩展版-带上下文-NUM-SENTENCES-INCLUDE-15 数据来源：互联网公开数据标签：LLM,科学,考试,数据集,上下文,NLP,文本生成,教育,机器学习数据概述：本数据集是先前数据集的扩展版本，其核心改进在于将NUM_SENTENCES_INCLUDE参数设置为15。这意味着在构建数据集时，每个样本都包含了更丰富的上下文信息，从而增强了数据集的表达能力。数据集的上下文信息存储在“context”列中，用于提供与问题相关的额外信息。

数据集包含多个文件，每个文件都包含不同数量的样本，具体如下：

15k_gpt3.5-turbo.csv：591342 个样本
5900_examples.csv：291882 个样本
6000_train_examples.csv：307803 个样本
extra_train_set.csv：281775 个样本
stem_1k_v1.csv：33856 个样本
train.csv：18836 个样本

数据用途概述：该数据集主要用于训练和评估大型语言模型（LLM）在科学考试和相关任务上的表现。数据集中的“context”列可以用于构建更具上下文感知的提示，从而提升模型在理解和回答科学问题时的准确性。该数据集适用于自然语言处理（NLP）研究、教育领域的相关应用以及机器学习模型的开发和优化。例如，研究人员可以利用此数据进行模型微调、上下文学习、以及对模型在复杂文本理解方面的能力进行评估。此外，该数据集也为开发科学教育相关的应用提供了基础。

数据与资源

LLM科学考试数据集-扩展版-带上下文-NUM-SENTENCES-INCLUDE-15.zipZIP
45.51 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	45.51 MiB
最后更新	2025年4月20日
创建于	2025年4月20日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

LLM科学考试数据集-扩展版-带上下文-NUM-SENTENCES-INCLUDE-15

数据与资源

附加信息

注册成功！