交互式数据分析笔记本自然语言到代码生成数据集
数据来源:互联网公开数据
标签:自然语言处理,代码生成,交互式笔记本,机器学习,数据科学
数据概述:
本数据集名为Arcade,包含了一系列基于交互式数据科学笔记本的自然语言到代码生成问题。每个问题都包括自然语言意图描述、参考代码解决方案以及前文的笔记本上下文(Markdown或代码单元格)。Arcade数据集适用于评估大型代码语言模型在根据自然语言指令生成数据科学程序时的准确性。
数据用途概述:
该数据集适用于自然语言到代码生成模型的评估与优化,数据科学家可以利用此数据集来研究和改进代码生成算法。此外,该数据集还适合用于机器学习模型的训练与验证,帮助开发者更好地理解和构建交互式数据分析工具。
举例:
例如,在Arcade数据集中,一个典型的记录可能如下所示:
{
"notebook_name": "数据清洗示例",
"work_dir": "datasets/cleaning",
"annotator": "Annotator_123",
"turns": [
{
"input": "请编写代码以删除数据框中的缺失值。",
"turn": {
"intent": {
"value": "删除数据框中的缺失值",
"is_cell_intent": true,
"cell_idx": 2,
"line_span": [1, 2],
"not_sure": false,
"output_variables": ["cleaned_df"]
},
"code": {
"value": "cleaned_df = df.dropna()",
"cell_idx": 3,
"num_lines": 1,
"line_span": [1, 1]
},
"code_context": "import pandas as pd\ndf = pd.read_csv('data.csv')",
"delta_code_context": "df = pd.read_csv('data.csv')",
"metadata": {
"annotator_id": "Annotator_123",
"num_code_lines": 1,
"utterance_without_output_spec": "删除数据框中的缺失值"
}
},
"notebook": "",
"metadata": {
"context_cells": [
{
"cell_type": "code",
"source": "import pandas as pd"
},
{
"cell_type": "code",
"source": "df = pd.read_csv('data.csv')"
}
],
"delta_cell_num": 1,
"context_cell_num": 3,
"intent_text": "删除数据框中的缺失值",
"first_cell_index": 0,
"prompt_length": 15
}
}
]
}