TECA_Textual_Entailment_Catalan数据集v_1_0_2

关注者: 0

资源积分: 30

分类

公开数据

公开数据

授权

没有提供授权

数据集

TECA_Textual_Entailment_Catalan数据集v_1_0_2

数据集概述

本数据集为加泰罗尼亚语文本蕴含（TE）数据集TECA，包含catalan_TE1和vilaweb_TE两个子集，共14997和6166对标注的前提与假设句子对，标注类别为蕴含、矛盾或中立。数据来源于加泰罗尼亚语文本语料库和Vilaweb新闻专线，以.zip格式发布，无训练测试等拆分。

文件详解

文件名称：TECA_v.1.0.2.zip
文件格式：ZIP
字段映射介绍：包含两个加泰罗尼亚语文本蕴含子集，每个句子对含前提文本与假设文本，标注类别对应数值：0（蕴含）、1（中立）、2（矛盾）。

数据来源

论文“Are Multilingual Models the Best Choice for Moderately Under-resourced Languages? A Comprehensive Assessment for Catalan”

适用场景

自然语言处理模型训练: 用于加泰罗尼亚语文本蕴含任务的模型训练与评估。
低资源语言处理研究: 分析多语言模型在中等资源语言（如加泰罗尼亚语）中的表现。
文本推理标注研究: 探索文本蕴含任务的标注体系与矛盾、中立关系的识别方法。
语料库应用研究: 基于加泰罗尼亚语料库和新闻文本的文本语义关系挖掘。

数据与资源

4761458.zipZIP
0.99 MiB

下载

附加信息

字段	值
作者	Maxj
版本	1
数据集大小	0.99 MiB
最后更新	2026年1月15日
创建于	2026年1月15日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

智能助手

您好！我是海数据平台的智能助手，有什么可以帮助您的吗？