Spider_Realistic_Based_Text_to_SQL模型评估数据集

关注者: 0

资源积分: 30

分类

公开数据

公开数据

授权

没有提供授权

数据集

Spider_Realistic_Based_Text_to_SQL模型评估数据集

数据集概述

本数据集是基于Spider数据集开发的Spider-Realistic评估数据集，通过移除原始问题中显式列名、保留SQL查询与数据库不变，用于测试文本转SQL模型在自然语言与数据库 schema 对齐的能力，包含5个文件，支持语义解析模型的性能评估。

文件详解

spider-realistic.json
文件格式：JSON
字段映射介绍：Spider-Realistic评估集，含508个示例、19个数据库，问题已移除显式列名，SQL查询与原始一致
dev.json
文件格式：JSON
字段映射介绍：Spider原始开发集，含1034个示例、20个数据库，保留原始问题表述
tables.json
文件格式：JSON
字段映射介绍：Spider原始数据库 schema，含166个数据库的表结构信息
README.txt
文件格式：TXT
字段映射介绍：数据集说明文档，含创建背景、使用方法及引用要求
license
文件格式：无扩展名
字段映射介绍：数据集许可文件，采用CC BY-SA 4.0协议

数据来源

论文“Structure-Grounded Pretraining for Text-to-SQL”及Spider数据集（2020-06-07版本）

适用场景

文本转SQL模型性能评估：测试模型在隐式列名场景下的语义解析准确性
自然语言与数据库schema对齐研究：分析模型对NL utterance与DB结构的关联能力
语义解析预训练方法验证：支持Structure-Grounded Pretraining等预训练策略的效果验证
跨域文本转SQL任务优化：基于166个数据库的多样场景，优化模型跨领域适配能力

数据与资源

5205322.zipZIP
6.09 MiB

下载

附加信息

字段	值
作者	Maxj
版本	1
数据集大小	6.09 MiB
最后更新	2026年1月18日
创建于	2026年1月18日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

智能助手

您好！我是海数据平台的智能助手，有什么可以帮助您的吗？