-
TeCla加泰罗尼亚语文本分类数据集
2025年12月20日 30 60 40
数据集概述 本数据集为用于主题多分类文本分类任务的加泰罗尼亚语新闻语料库(TeCla 2.0),包含十一万三千三百七十六篇文章,采用粗粒度(4类)和细粒度(共53类)的层级分类结构,每类粗粒度对应若干细粒度类别。 文件详解 文件名称: tecla_v2.zip 文件格式: ZIP压缩包 内容说明:...
-
加泰罗尼亚语语义文本相似度基准数据集1_0_2
2025年12月9日 30 172 46
数据集概述 该数据集是用于评估加泰罗尼亚语语义文本相似度(STS)的基准语料库,包含三千余对人工标注的句子对,标注遵循SemEval挑战指南,基于0到5分的相似度评分标准,为语义相似度模型的构建与评估提供支持。 文件详解 文件名称:STS-ca_v.1.0.2.zip 文件格式:ZIP压缩包...



