数据集概述
本数据集包含MatText软件包分词器使用的词汇表文件,共15个文件,分为JSON和TXT两种格式。文件涵盖材料科学相关的多种词汇类型,如晶体学信息文件(CIF)、SMILES表达式、化学组成等词汇表,为材料文本处理任务提供基础分词资源。
文件详解
- JSON文件(8个,占比约53.33%)
- 示例文件:cif_vocab_rt.json、robocrys_vocab.json、crystal_llm_vocab.json、smiles_vocab_rt.json、1.json
- 文件格式:JSON
- 字段映射介绍:以键值对形式存储词汇表,不同文件对应不同类型的词汇,如cif_vocab_rt.json包含"." "0-0_"等CIF相关词汇键;crystal_llm_vocab.json包含"H" "He" "Li"等化学元素词汇键
- TXT文件(7个,占比约46.67%)
- 示例文件:slice_vocab_rt.txt、smiles_vocab_rt.txt、composition_vocab.txt、composition_vocab_rt.txt、cif_vocab_rt.txt
- 文件格式:TXT
- 字段映射介绍:以文本形式存储词汇列表,如slice_vocab_rt.txt包含"o" "+" "-"等符号及"H" "He" "Li"等化学元素词汇;composition_vocab.txt包含化学组成相关词汇
数据来源
MatText package
适用场景
- 材料科学文本分词任务:为MatText包的分词器提供词汇表支持,实现材料相关文本的精准分词
- 材料文本处理模型训练:作为自然语言处理模型在材料科学领域应用的基础词汇资源
- 材料数据标准化:辅助材料相关文本数据(如CIF文件、SMILES表达式)的标准化处理
- 跨模态材料信息融合:支持文本与其他材料数据(如结构数据、性能数据)的跨模态融合分析