葡萄牙语文本到SQL查询生成数据集2023

葡萄牙语文本到SQL查询生成数据集2023 数据来源:互联网公开数据 标签:葡萄牙语,文本到SQL,自然语言处理,机器学习,数据库 数据概述: 本数据集是b-mc2/sql-create-context数据集的葡萄牙语翻译版本,基于WikiSQL和Spider数据集构建。数据集包含了葡萄牙语问题、SQL CREATE TABLE语句以及基于这些语句的SQL查询,旨在为葡萄牙语自然语言模型生成精确且上下文相关的SQL查询提供支持,避免列名和表名的虚构问题。通过仅提供CREATE TABLE语句作为上下文,数据集能够在不暴露实际数据行的情况下,更好地训练模型,减少令牌使用并避免接触私密、敏感或专有数据。 数据用途概述: 该数据集适用于训练自然语言模型以生成SQL查询,特别是在列名和表名的准确性至关重要的场景中。它可以提高模型在文本到SQL任务中的表现,提供清晰的上下文并避免常见的虚构错误。此外,数据集也有助于开发和评估葡萄牙语自然语言处理系统的性能。 数据集详情: 总样本数:78,577 字段定义: - pergunta: 自然语言形式的问题 - contexto: 用于回答问题的SQL CREATE TABLE语句 - resposta: 基于提供的上下文回答问题的SQL查询 翻译过程: 使用facebook/nllb-200-distilled-1.3B模型将问题翻译成葡萄牙语,确保自然语言查询保持与原始英文问题相同的含义和上下文。 参考文献: @misc{b-mc2_2023_sql-create-context, title = {sql-create-context Dataset}, author = {b-mc2}, year = {2023}, url = {https://huggingface.co/datasets/b-mc2/sql-create-context}, note = {This dataset was created by modifying data from the following sources: \cite{zhongSeq2SQL2017, yu2018spider}.}, } @article{zhongSeq2SQL2017, author = {Victor Zhong and Caiming Xiong and Richard Socher}, title = {Seq2SQL: Generating Structured Queries from Natural Language using Reinforcement Learning}, journal = {CoRR}, volume = {abs/1709.00103}, year = {2017} } @article{yu2018spider, title = {Spider: A large-scale human-labeled dataset for complex and cross-domain semantic parsing and text-to-sql task}, author = {Yu, Tao and Zhang, Rui and Yang, Kai and Yasunaga, Michihiro and Wang, Dongxu and Li, Zifan and Ma, James and Li, Irene and Yao, Qingning and Roman, Shanelle and others}, journal = {arXiv preprint arXiv:1809.08887}, year = {2018} }

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 3.74 MiB
最后更新 2025年4月14日
创建于 2025年4月14日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。