数据集概述
本数据集是为材料科学领域大语言模型HoneyBee构建的渐进式指令微调数据,基于MatSci-Instruct可信数据整理流程生成,包含训练和测试两类指令数据,可用于材料科学专用大语言模型的微调训练与性能评估。
文件详解
- 训练指令文件
- 文件名称:honeybee_train_instructions.json
- 文件格式:JSON
- 字段映射介绍:包含用于HoneyBee模型训练的材料科学领域指令数据,具体字段需参考文件内容
- 测试指令文件
- 文件名称:honeybee_test_instructions.json
- 文件格式:JSON
- 字段映射介绍:包含用于HoneyBee模型性能评估的材料科学领域指令数据,具体字段需参考文件内容
数据来源
GitHub仓库https://github.com/BangLab-UdeM-Mila/NLP4MatSci-HoneyBee
适用场景
- 材料科学大语言模型训练: 用于LLaMa等基础大语言模型的材料科学领域指令微调
- 模型性能评估: 通过测试指令数据验证材料科学专用模型的任务处理能力
- 材料科学NLP任务研究: 支持材料科学领域自然语言处理任务的算法开发与优化
- 可信数据整理方法验证: 用于验证MatSci-Instruct流程在材料科学文本数据整理中的有效性