葡萄牙语文本到SQL查询生成数据集2023
数据来源:互联网公开数据
标签:葡萄牙语,文本到SQL,自然语言处理,机器学习,数据库
数据概述:
本数据集是b-mc2/sql-create-context数据集的葡萄牙语翻译版本,基于WikiSQL和Spider数据集构建。数据集包含了葡萄牙语问题、SQL CREATE TABLE语句以及基于这些语句的SQL查询,旨在为葡萄牙语自然语言模型生成精确且上下文相关的SQL查询提供支持,避免列名和表名的虚构问题。通过仅提供CREATE TABLE语句作为上下文,数据集能够在不暴露实际数据行的情况下,更好地训练模型,减少令牌使用并避免接触私密、敏感或专有数据。
数据用途概述:
该数据集适用于训练自然语言模型以生成SQL查询,特别是在列名和表名的准确性至关重要的场景中。它可以提高模型在文本到SQL任务中的表现,提供清晰的上下文并避免常见的虚构错误。此外,数据集也有助于开发和评估葡萄牙语自然语言处理系统的性能。
数据集详情:
总样本数:78,577
字段定义:
- pergunta: 自然语言形式的问题
- contexto: 用于回答问题的SQL CREATE TABLE语句
- resposta: 基于提供的上下文回答问题的SQL查询
翻译过程:
使用facebook/nllb-200-distilled-1.3B模型将问题翻译成葡萄牙语,确保自然语言查询保持与原始英文问题相同的含义和上下文。
参考文献:
@misc{b-mc2_2023_sql-create-context,
title = {sql-create-context Dataset},
author = {b-mc2},
year = {2023},
url = {https://huggingface.co/datasets/b-mc2/sql-create-context},
note = {This dataset was created by modifying data from the following sources: \cite{zhongSeq2SQL2017, yu2018spider}.},
}
@article{zhongSeq2SQL2017,
author = {Victor Zhong and Caiming Xiong and Richard Socher},
title = {Seq2SQL: Generating Structured Queries from Natural Language using Reinforcement Learning},
journal = {CoRR},
volume = {abs/1709.00103},
year = {2017}
}
@article{yu2018spider,
title = {Spider: A large-scale human-labeled dataset for complex and cross-domain semantic parsing and text-to-sql task},
author = {Yu, Tao and Zhang, Rui and Yang, Kai and Yasunaga, Michihiro and Wang, Dongxu and Li, Zifan and Ma, James and Li, Irene and Yao, Qingning and Roman, Shanelle and others},
journal = {arXiv preprint arXiv:1809.08887},
year = {2018}
}