MatBERT_Based_带隙预测专家标注数据集2023

数据集概述

本数据集为论文“Toward Accurate Interpretable Predictions of Materials Properties within Transformer Language Models”(arXiv:2303.12188)的配套数据,包含专家标注的材料带隙预测相关信息。数据以JSON格式存储,涵盖材料的文本描述、分词序列、专家提出的理据及模型预测标签等内容,可用于材料带隙预测模型的可解释性研究,总计包含一个文件。

文件详解

  • 文件名称:dataset_annotated.json
  • 文件格式:JSON
  • 字段映射介绍:以JARVIS-DFT id为键,每个条目包含:
  • text:通过Robocrystallographer库生成的材料文本描述
  • tokens:由MatBERT分词器生成的分词序列
  • rationales:领域专家提出的理据
  • label:MatBERT模型预测的标签

数据来源

论文“Toward Accurate Interpretable Predictions of Materials Properties within Transformer Language Models”(arXiv:2303.12188)

适用场景

  • 材料带隙预测模型可解释性研究: 利用专家标注的理据分析MatBERT模型预测结果的合理性与决策依据
  • 材料信息学模型训练: 为材料性质预测模型提供带文本描述、分词及标签的结构化标注数据
  • 材料科学领域知识挖掘: 通过专家理据探索影响材料带隙的关键结构特征
  • 自然语言处理在材料科学中的应用: 研究MatBERT分词器对材料文本的处理效果及模型预测性能优化
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 0.43 MiB
最后更新 2026年1月29日
创建于 2026年1月29日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。