HoneyBee_Based_材料科学大语言模型渐进式指令微调数据集

数据集概述

本数据集是为材料科学领域大语言模型HoneyBee构建的渐进式指令微调数据,基于MatSci-Instruct可信数据整理流程生成,包含训练和测试两类指令数据,可用于材料科学专用大语言模型的微调训练与性能评估。

文件详解

  • 训练指令文件
  • 文件名称:honeybee_train_instructions.json
  • 文件格式:JSON
  • 字段映射介绍:包含用于HoneyBee模型训练的材料科学领域指令数据,具体字段需参考文件内容
  • 测试指令文件
  • 文件名称:honeybee_test_instructions.json
  • 文件格式:JSON
  • 字段映射介绍:包含用于HoneyBee模型性能评估的材料科学领域指令数据,具体字段需参考文件内容

数据来源

GitHub仓库https://github.com/BangLab-UdeM-Mila/NLP4MatSci-HoneyBee

适用场景

  • 材料科学大语言模型训练: 用于LLaMa等基础大语言模型的材料科学领域指令微调
  • 模型性能评估: 通过测试指令数据验证材料科学专用模型的任务处理能力
  • 材料科学NLP任务研究: 支持材料科学领域自然语言处理任务的算法开发与优化
  • 可信数据整理方法验证: 用于验证MatSci-Instruct流程在材料科学文本数据整理中的有效性
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 52.69 MiB
最后更新 2026年1月26日
创建于 2026年1月26日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。