TeCla加泰罗尼亚语文本分类数据集

数据集概述

本数据集为用于主题多分类文本分类任务的加泰罗尼亚语新闻语料库(TeCla 2.0),包含十一万三千三百七十六篇文章,采用粗粒度(4类)和细粒度(共53类)的层级分类结构,每类粗粒度对应若干细粒度类别。

文件详解

  • 文件名称: tecla_v2.zip
  • 文件格式: ZIP压缩包
  • 内容说明: 压缩包内包含加泰罗尼亚语新闻分类数据集,未提供训练/测试、数据/标签、原始/处理数据的拆分,无README或内容预览。

数据来源

加泰罗尼亚通讯社(ACN)网站(http://www.acn.cat

适用场景

  • 自然语言处理研究: 用于训练和评估加泰罗尼亚语文本分类的机器学习模型
  • 多分类任务开发: 支持基于层级分类结构的主题分类算法开发
  • 加泰罗尼亚语语言理解: 为加泰罗尼亚语语言基准(CLUB)提供文本分类任务数据支撑
  • 新闻文本分析: 可用于新闻主题分布、内容趋势等相关研究
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 89.32 MiB
最后更新 2025年12月20日
创建于 2025年12月20日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。