文本转Pandas代码数据集-2021-zeyadusf
数据来源:互联网公开数据
标签:文本转代码,数据预处理,机器学习,自然语言处理,数据集,编程,教育,科研
数据概述:
本数据集收录了用于将文本描述转换为Pandas代码的训练和测试样本,旨在辅助数据科学和编程教育。数据集包含两个主要部分:上下文和问题描述(Context),以及对应的Pandas代码(Pandas Query)。其中,上下文部分描述了目标数据框的结构和元数据,问题部分则提出了基于该数据框的操作需求。
数据集由两个来源合并而成,经过统一格式化处理后,包含72,800个训练样本和18,600个测试样本。每个样本由以下字段组成:
- context:描述数据框结构的文本信息,例如“head = pd.DataFrame(columns=['age','head_id'])”。
- question:具体的操作问题,例如“What are the distinct ages of the heads who are acting?”。
- answer:对应的Pandas代码答案,例如“result = management['head.age'].unique()”。
数据集整合了不同来源的数据,通过代码自动化处理上下文格式,去除了无效样本并过滤了长度过短的问题,提高了数据质量。
数据用途概述:
该数据集适用于多种场景,包括自然语言处理与机器学习模型的训练,数据科学教育,编程教学和科研项目开发。研究者可以通过此数据集训练文本转代码模型,提升代码生成能力;教育者可以利用该数据集进行教学演示,帮助学生理解数据操作逻辑;同时,开发者也可以借助该数据集优化数据处理流程,提高编程效率。此外,数据集还支持跨领域应用,如数据分析、数据可视化等,为相关领域的研究和实践提供了坚实的数据基础。