数据集概述
本数据集为加泰罗尼亚语文本蕴含(TE)数据集TECA,包含catalan_TE1和vilaweb_TE两个子集,共14997和6166对标注的前提与假设句子对,标注类别为蕴含、矛盾或中立。数据来源于加泰罗尼亚语文本语料库和Vilaweb新闻专线,以.zip格式发布,无训练测试等拆分。
文件详解
- 文件名称:
TECA_v.1.0.2.zip
- 文件格式:ZIP
- 字段映射介绍:包含两个加泰罗尼亚语文本蕴含子集,每个句子对含前提文本与假设文本,标注类别对应数值:0(蕴含)、1(中立)、2(矛盾)。
数据来源
论文“Are Multilingual Models the Best Choice for Moderately Under-resourced Languages? A Comprehensive Assessment for Catalan”
适用场景
- 自然语言处理模型训练: 用于加泰罗尼亚语文本蕴含任务的模型训练与评估。
- 低资源语言处理研究: 分析多语言模型在中等资源语言(如加泰罗尼亚语)中的表现。
- 文本推理标注研究: 探索文本蕴含任务的标注体系与矛盾、中立关系的识别方法。
- 语料库应用研究: 基于加泰罗尼亚语料库和新闻文本的文本语义关系挖掘。