-
图书文本语料库预训练数据集
2025年9月25日 30 169 0
图书文本语料库预训练数据集_Book_Text_Corpus_Pre_training_Dataset 数据来源:互联网公开数据 标签:文本预训练, 自然语言处理, 语料库, 文本数据, BERT, 对比学习, 语言模型, 机器学习 数据概述: 该数据集包含从书籍文本中提取的语料,记录了用于自然语言处理模型预训练的文本内容。主要特征如下:...
-
EEDI预训练混合数据集EEDIEmbedPretrainMixFinalDataset-conjuring92
2025年4月26日 30 166 50
EEDI预训练混合数据集EEDIEmbedPretrainMixFinalDataset-conjuring92 数据来源:互联网公开数据 标签:自然语言处理,预训练,数据集,文本嵌入,深度学习,语言模型,机器翻译,文本生成 数据概述: 该数据集是EEDI项目用于预训练的最终混合数据集,包含了多种来源的文本数据,旨在提升语言模型的性能。主要特征如下:...



