跨语言文本蕴含关系分类数据集

跨语言文本蕴含关系分类数据集 数据来源:互联网公开数据
标签:自然语言处理,跨语言分析,文本蕴含,机器学习,句子分类,逻辑推理,多语言支持

数据概述:
本数据集包含来自15种不同语言的文本对(前提句和假设句),每对句子被分类为“蕴含”、“矛盾”或“中性”三类。数据集覆盖的语言包括阿拉伯语、保加利亚语、中文、德语、希腊语、英语、西班牙语、法语、印地语、俄语、斯瓦希里语、泰语、土耳其语、乌尔都语和越南语。每条记录包含前提句和假设句,以及对应的分类标签,为跨语言文本蕴含关系研究提供了丰富的多语言数据支持。

数据用途概述:
该数据集适用于自然语言处理领域的文本蕴含关系分类任务,特别适合用于跨语言模型的训练与评估。研究者可以利用此数据集探索不同语言之间的文本蕴含关系特点,优化多语言模型的性能。同时,数据集也适用于跨语言信息抽取、逻辑推理及语义分析等场景,为多语言自然语言处理技术的发展提供了重要的数据支持。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 3.09 MiB
最后更新 2025年4月14日
创建于 2025年4月14日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。