数据集概述
本数据集是基于Spider数据集开发的Spider-Realistic评估数据集,通过移除原始问题中显式列名、保留SQL查询与数据库不变,用于测试文本转SQL模型在自然语言与数据库 schema 对齐的能力,包含5个文件,支持语义解析模型的性能评估。
文件详解
- spider-realistic.json
- 文件格式:JSON
- 字段映射介绍:Spider-Realistic评估集,含508个示例、19个数据库,问题已移除显式列名,SQL查询与原始一致
- dev.json
- 文件格式:JSON
- 字段映射介绍:Spider原始开发集,含1034个示例、20个数据库,保留原始问题表述
- tables.json
- 文件格式:JSON
- 字段映射介绍:Spider原始数据库 schema,含166个数据库的表结构信息
- README.txt
- 文件格式:TXT
- 字段映射介绍:数据集说明文档,含创建背景、使用方法及引用要求
- license
- 文件格式:无扩展名
- 字段映射介绍:数据集许可文件,采用CC BY-SA 4.0协议
数据来源
论文“Structure-Grounded Pretraining for Text-to-SQL”及Spider数据集(2020-06-07版本)
适用场景
- 文本转SQL模型性能评估:测试模型在隐式列名场景下的语义解析准确性
- 自然语言与数据库schema对齐研究:分析模型对NL utterance与DB结构的关联能力
- 语义解析预训练方法验证:支持Structure-Grounded Pretraining等预训练策略的效果验证
- 跨域文本转SQL任务优化:基于166个数据库的多样场景,优化模型跨领域适配能力