语义相关性句子对数据集2023

数据集概述

该数据集包含五千五百个英文句子对,每个句子对依据语义相关程度被赋予零到一的评分,零代表最不相关,一代表最相关。数据通过最佳最差标度法(Best-Worst Scaling)收集,旨在支持句子语义相关性、句子表示方法及相关应用的研究。

文件详解

  • 核心数据文件:
  • sem_text_rel_ranked.csv: CSV格式,包含句子对及相关评分,字段包括SourceID(来源数据集标识)、SubsetID(抽样策略标识)、PairID(句子对唯一标识)、Text(以换行分隔的句子对)、Score(语义相关度评分)。
  • 原始标注文件(压缩包):
  • mturk_data.zip: ZIP压缩包,包含亚马逊土耳其机器人(MTurk)的原始标注数据,具体文件需解压后查看。
  • 数据说明文档:
  • STR2022-datastatement.pdf: PDF格式,为数据集的数据表说明文档。
  • 其他文档:
  • License.md: MD格式,许可证文件。
  • README.md: MD格式,仓库说明文档,包含引用信息及数据加载方法。

适用场景

  • 自然语言处理研究: 用于训练和评估句子语义相关性计算模型。
  • 句子表示方法研究: 支持句子嵌入模型的性能测试与优化。
  • 语义相关度度量研究: 可用于比较不同语义相关度计算方法的效果。
  • 文本应用开发: 为问答系统、剽窃检测、文本生成等应用提供语义相关性判断的数据支持。
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 5.03 MiB
最后更新 2025年12月9日
创建于 2025年12月9日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。