SICK_组合知识句子相关度与蕴含数据集

数据集概述

该数据集包含约一万个英文句子对,基于现有数据集通过三步生成流程构建,经众包标注获得相关度评分(五分制)与蕴含关系标签(蕴含、矛盾、中性),用于评估语义模型的相关度量化与蕴含检测能力。

文件详解

  • 文件名称: SICK.zip(主文件),文件格式: ZIP压缩包,包含核心句子对数据及相关度、蕴含标注信息
  • 文件名称: SICK_Annotated.zip,文件格式: ZIP压缩包,标注了每个句子对生成时所用的扩展规则
  • 文件名称: SICK_subsets.zip,文件格式: ZIP压缩包,包含进一步分类的索引文件,用于JLRE 2016相关研究

适用场景

  • 语义模型评估: 用于测试模型对句子语义相关度的量化能力
  • 自然语言推理研究: 验证模型检测句子间蕴含、矛盾、中性关系的性能
  • 组合分布式语义模型(CDSM)研发: 为模型训练与效果验证提供标注数据
  • 语义系统基准测试: 作为传统语义系统能力评估的标准数据集
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 0.46 MiB
最后更新 2025年12月9日
创建于 2025年12月9日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。