TECA_Textual_Entailment_Catalan数据集v_1_0_2

数据集概述

本数据集为加泰罗尼亚语文本蕴含(TE)数据集TECA,包含catalan_TE1和vilaweb_TE两个子集,共14997和6166对标注的前提与假设句子对,标注类别为蕴含、矛盾或中立。数据来源于加泰罗尼亚语文本语料库和Vilaweb新闻专线,以.zip格式发布,无训练测试等拆分。

文件详解

  • 文件名称:TECA_v.1.0.2.zip
  • 文件格式:ZIP
  • 字段映射介绍:包含两个加泰罗尼亚语文本蕴含子集,每个句子对含前提文本与假设文本,标注类别对应数值:0(蕴含)、1(中立)、2(矛盾)。

数据来源

论文“Are Multilingual Models the Best Choice for Moderately Under-resourced Languages? A Comprehensive Assessment for Catalan”

适用场景

  • 自然语言处理模型训练: 用于加泰罗尼亚语文本蕴含任务的模型训练与评估。
  • 低资源语言处理研究: 分析多语言模型在中等资源语言(如加泰罗尼亚语)中的表现。
  • 文本推理标注研究: 探索文本蕴含任务的标注体系与矛盾、中立关系的识别方法。
  • 语料库应用研究: 基于加泰罗尼亚语料库和新闻文本的文本语义关系挖掘。
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 0.99 MiB
最后更新 2026年1月15日
创建于 2026年1月15日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。