找到2个数据集

分类: 公开数据 标签: 分词器

过滤结果
  • MatText_Package_分词器词汇表数据

    2026年2月1日 30 22 3

    数据集概述 本数据集包含MatText软件包分词器使用的词汇表文件,共15个文件,分为JSON和TXT两种格式。文件涵盖材料科学相关的多种词汇类型,如晶体学信息文件(CIF)、SMILES表达式、化学组成等词汇表,为材料文本处理任务提供基础分词资源。 文件详解 JSON文件(8个,占比约53.33%)...
    packageimg
  • CEOML_Based_职业参与度机器学习分类器开发数据

    2026年1月30日 30 161 51

    数据集概述 本数据集包含CEOML(职业参与度机器学习分类器)开发过程中的原始数据、代码及模型文件,总计11个文件。核心内容为用于量化职业参与度上下文的文本数据、分类模型文件、训练配置及分析代码,支持对职业参与度分类模型的复现与研究。 文件详解 模型相关文件...
    packageimg