MatText_Package_分词器词汇表数据

数据集概述

本数据集包含MatText软件包分词器使用的词汇表文件,共15个文件,分为JSON和TXT两种格式。文件涵盖材料科学相关的多种词汇类型,如晶体学信息文件(CIF)、SMILES表达式、化学组成等词汇表,为材料文本处理任务提供基础分词资源。

文件详解

  • JSON文件(8个,占比约53.33%)
  • 示例文件:cif_vocab_rt.json、robocrys_vocab.json、crystal_llm_vocab.json、smiles_vocab_rt.json、1.json
  • 文件格式:JSON
  • 字段映射介绍:以键值对形式存储词汇表,不同文件对应不同类型的词汇,如cif_vocab_rt.json包含"." "0-0_"等CIF相关词汇键;crystal_llm_vocab.json包含"H" "He" "Li"等化学元素词汇键
  • TXT文件(7个,占比约46.67%)
  • 示例文件:slice_vocab_rt.txt、smiles_vocab_rt.txt、composition_vocab.txt、composition_vocab_rt.txt、cif_vocab_rt.txt
  • 文件格式:TXT
  • 字段映射介绍:以文本形式存储词汇列表,如slice_vocab_rt.txt包含"o" "+" "-"等符号及"H" "He" "Li"等化学元素词汇;composition_vocab.txt包含化学组成相关词汇

数据来源

MatText package

适用场景

  • 材料科学文本分词任务:为MatText包的分词器提供词汇表支持,实现材料相关文本的精准分词
  • 材料文本处理模型训练:作为自然语言处理模型在材料科学领域应用的基础词汇资源
  • 材料数据标准化:辅助材料相关文本数据(如CIF文件、SMILES表达式)的标准化处理
  • 跨模态材料信息融合:支持文本与其他材料数据(如结构数据、性能数据)的跨模态融合分析
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 1.15 MiB
最后更新 2026年2月1日
创建于 2026年2月1日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。