Spider_Realistic_Based_Text_to_SQL模型评估数据集

数据集概述

本数据集是基于Spider数据集开发的Spider-Realistic评估数据集,通过移除原始问题中显式列名、保留SQL查询与数据库不变,用于测试文本转SQL模型在自然语言与数据库 schema 对齐的能力,包含5个文件,支持语义解析模型的性能评估。

文件详解

  • spider-realistic.json
  • 文件格式:JSON
  • 字段映射介绍:Spider-Realistic评估集,含508个示例、19个数据库,问题已移除显式列名,SQL查询与原始一致
  • dev.json
  • 文件格式:JSON
  • 字段映射介绍:Spider原始开发集,含1034个示例、20个数据库,保留原始问题表述
  • tables.json
  • 文件格式:JSON
  • 字段映射介绍:Spider原始数据库 schema,含166个数据库的表结构信息
  • README.txt
  • 文件格式:TXT
  • 字段映射介绍:数据集说明文档,含创建背景、使用方法及引用要求
  • license
  • 文件格式:无扩展名
  • 字段映射介绍:数据集许可文件,采用CC BY-SA 4.0协议

数据来源

论文“Structure-Grounded Pretraining for Text-to-SQL”及Spider数据集(2020-06-07版本)

适用场景

  • 文本转SQL模型性能评估:测试模型在隐式列名场景下的语义解析准确性
  • 自然语言与数据库schema对齐研究:分析模型对NL utterance与DB结构的关联能力
  • 语义解析预训练方法验证:支持Structure-Grounded Pretraining等预训练策略的效果验证
  • 跨域文本转SQL任务优化:基于166个数据库的多样场景,优化模型跨领域适配能力
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 6.09 MiB
最后更新 2026年1月18日
创建于 2026年1月18日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。