数据集

文本转Pandas代码数据集-2021-zeyadusf

文本转Pandas代码数据集-2021-zeyadusf 数据来源：互联网公开数据标签：文本转代码,数据预处理,机器学习,自然语言处理,数据集,编程,教育,科研数据概述：本数据集收录了用于将文本描述转换为Pandas代码的训练和测试样本，旨在辅助数据科学和编程教育。数据集包含两个主要部分：上下文和问题描述（Context），以及对应的Pandas代码（Pandas Query）。其中，上下文部分描述了目标数据框的结构和元数据，问题部分则提出了基于该数据框的操作需求。

数据集由两个来源合并而成，经过统一格式化处理后，包含72,800个训练样本和18,600个测试样本。每个样本由以下字段组成：

context：描述数据框结构的文本信息，例如“head = pd.DataFrame(columns=['age','head_id'])”。
question：具体的操作问题，例如“What are the distinct ages of the heads who are acting?”。
answer：对应的Pandas代码答案，例如“result = management['head.age'].unique()”。

数据集整合了不同来源的数据，通过代码自动化处理上下文格式，去除了无效样本并过滤了长度过短的问题，提高了数据质量。

数据用途概述：该数据集适用于多种场景，包括自然语言处理与机器学习模型的训练，数据科学教育，编程教学和科研项目开发。研究者可以通过此数据集训练文本转代码模型，提升代码生成能力；教育者可以利用该数据集进行教学演示，帮助学生理解数据操作逻辑；同时，开发者也可以借助该数据集优化数据处理流程，提高编程效率。此外，数据集还支持跨领域应用，如数据分析、数据可视化等，为相关领域的研究和实践提供了坚实的数据基础。

数据与资源

versions_20250408121713.zipZIP
4.07 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	4.07 MiB
最后更新	2025年4月23日
创建于	2025年4月23日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

文本转Pandas代码数据集-2021-zeyadusf

数据与资源

附加信息

注册成功！