数据集

葡萄牙语文本到SQL查询生成数据集2023

葡萄牙语文本到SQL查询生成数据集2023 数据来源：互联网公开数据标签：葡萄牙语,文本到SQL,自然语言处理,机器学习,数据库数据概述：本数据集是b-mc2/sql-create-context数据集的葡萄牙语翻译版本，基于WikiSQL和Spider数据集构建。数据集包含了葡萄牙语问题、SQL CREATE TABLE语句以及基于这些语句的SQL查询，旨在为葡萄牙语自然语言模型生成精确且上下文相关的SQL查询提供支持，避免列名和表名的虚构问题。通过仅提供CREATE TABLE语句作为上下文，数据集能够在不暴露实际数据行的情况下，更好地训练模型，减少令牌使用并避免接触私密、敏感或专有数据。数据用途概述：该数据集适用于训练自然语言模型以生成SQL查询，特别是在列名和表名的准确性至关重要的场景中。它可以提高模型在文本到SQL任务中的表现，提供清晰的上下文并避免常见的虚构错误。此外，数据集也有助于开发和评估葡萄牙语自然语言处理系统的性能。数据集详情：总样本数：78,577 字段定义： - pergunta: 自然语言形式的问题 - contexto: 用于回答问题的SQL CREATE TABLE语句 - resposta: 基于提供的上下文回答问题的SQL查询翻译过程：使用facebook/nllb-200-distilled-1.3B模型将问题翻译成葡萄牙语，确保自然语言查询保持与原始英文问题相同的含义和上下文。参考文献： @misc{b-mc2_2023_sql-create-context, title = {sql-create-context Dataset}, author = {b-mc2}, year = {2023}, url = {https://huggingface.co/datasets/b-mc2/sql-create-context}, note = {This dataset was created by modifying data from the following sources: \cite{zhongSeq2SQL2017, yu2018spider}.}, } @article{zhongSeq2SQL2017, author = {Victor Zhong and Caiming Xiong and Richard Socher}, title = {Seq2SQL: Generating Structured Queries from Natural Language using Reinforcement Learning}, journal = {CoRR}, volume = {abs/1709.00103}, year = {2017} } @article{yu2018spider, title = {Spider: A large-scale human-labeled dataset for complex and cross-domain semantic parsing and text-to-sql task}, author = {Yu, Tao and Zhang, Rui and Yang, Kai and Yasunaga, Michihiro and Wang, Dongxu and Li, Zifan and Ma, James and Li, Irene and Yao, Qingning and Roman, Shanelle and others}, journal = {arXiv preprint arXiv:1809.08887}, year = {2018} }

数据与资源

葡萄牙语文本到SQL查询生成数据集2023.zipZIP
3.74 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	3.74 MiB
最后更新	2025年4月14日
创建于	2025年4月14日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

葡萄牙语文本到SQL查询生成数据集2023

数据与资源

附加信息

注册成功！