文本转Pandas代码数据集-2021-zeyadusf

文本转Pandas代码数据集-2021-zeyadusf 数据来源:互联网公开数据 标签:文本转代码,数据预处理,机器学习,自然语言处理,数据集,编程,教育,科研 数据概述: 本数据集收录了用于将文本描述转换为Pandas代码的训练和测试样本,旨在辅助数据科学和编程教育。数据集包含两个主要部分:上下文和问题描述(Context),以及对应的Pandas代码(Pandas Query)。其中,上下文部分描述了目标数据框的结构和元数据,问题部分则提出了基于该数据框的操作需求。

数据集由两个来源合并而成,经过统一格式化处理后,包含72,800个训练样本和18,600个测试样本。每个样本由以下字段组成:

  • context:描述数据框结构的文本信息,例如“head = pd.DataFrame(columns=['age','head_id'])”。
  • question:具体的操作问题,例如“What are the distinct ages of the heads who are acting?”。
  • answer:对应的Pandas代码答案,例如“result = management['head.age'].unique()”。

数据集整合了不同来源的数据,通过代码自动化处理上下文格式,去除了无效样本并过滤了长度过短的问题,提高了数据质量。

数据用途概述: 该数据集适用于多种场景,包括自然语言处理与机器学习模型的训练,数据科学教育,编程教学和科研项目开发。研究者可以通过此数据集训练文本转代码模型,提升代码生成能力;教育者可以利用该数据集进行教学演示,帮助学生理解数据操作逻辑;同时,开发者也可以借助该数据集优化数据处理流程,提高编程效率。此外,数据集还支持跨领域应用,如数据分析、数据可视化等,为相关领域的研究和实践提供了坚实的数据基础。

packageimg

数据与资源

附加信息

字段
版本 1.0
最后更新 四月 23, 2025, 19:55 (UTC)
创建于 四月 23, 2025, 19:55 (UTC)
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。