找到4个数据集

格式: ZIP 标签: 分词器

过滤结果
  • MatText_Package_分词器词汇表数据

    2026年2月1日 30 30 17

    数据集概述 本数据集包含MatText软件包分词器使用的词汇表文件,共15个文件,分为JSON和TXT两种格式。文件涵盖材料科学相关的多种词汇类型,如晶体学信息文件(CIF)、SMILES表达式、化学组成等词汇表,为材料文本处理任务提供基础分词资源。 文件详解 JSON文件(8个,占比约53.33%)...
    packageimg
  • CEOML_Based_职业参与度机器学习分类器开发数据

    2026年1月30日 30 163 41

    数据集概述 本数据集包含CEOML(职业参与度机器学习分类器)开发过程中的原始数据、代码及模型文件,总计11个文件。核心内容为用于量化职业参与度上下文的文本数据、分类模型文件、训练配置及分析代码,支持对职业参与度分类模型的复现与研究。 文件详解 模型相关文件...
    packageimg
  • 数据10kBPE分词器概率数据集10kBPETokenizerProbasDataset-kareem87

    2025年4月25日 30 60 53

    10kBPE分词器概率数据集10kBPETokenizerProbasDataset-kareem87 数据来源:互联网公开数据 标签:分词器,BPE,概率分布,数据集,自然语言处理,机器学习,文本处理,算法研究 数据概述:...
    packageimg
  • 数据集与分词器工具集DatasetandTokenizerToolkit-sopanhariemsoeun

    2025年4月25日 30 85 81

    数据集与分词器工具集DatasetandTokenizerToolkit-sopanhariemsoeun 数据来源:互联网公开数据 标签:自然语言处理,数据集,分词器,文本处理,机器学习,语言模型,数据预处理,工具集 数据概述: 该数据集包含用于自然语言处理的多种工具和数据集,主要支持文本分词,数据预处理等任务。主要特征如下:...
    packageimg