Sciphi中小学至研究生教材样本数据集-thedevastator
数据来源:互联网公开数据
标签:教材样本,教育研究,机器学习,数据集,开放源代码,文本分类,自然语言处理
数据概述:
本数据集是教育研究的一站式综合资源,包含650,000份来自K-12至研究生课程的唯一教材样本,涵盖了从基础课程到高级研究生课程的广泛内容。通过这一庞大的数据集,您可以深入探索教育生态系统,进行材料分析并发现新的视角和学习方法。数据集中的样本包括原始提示、生成的文本、完成版本和同行研究者的注释,有助于从不同角度分析课程材料。此外,数据集中的可调参数(如使用的模型和温度设置)有助于优化结果,使之更符合您的研究需求。无论是寻找新课程理念的教育者,还是需要原始材料进行历史或文学课程学习的学生,这一开源集合都能满足需求。
数据用途概述:
该数据集适用于教育研究、教材分析、自然语言处理、文本分类等多种场景。研究人员可以利用此数据集进行课程分类、自动摘要生成、新任务设计等研究工作;教育者可以参考样本教材进行教学设计;学生可以获取课程原版材料进行学习和研究。
如何使用数据集:
本数据集包含650,000份来自不同学术水平的教材样本,涵盖各种课程。使用此数据集时,需要考虑以下几个关键列:formatted_prompt(格式化提示)、completion(完成内容)、first_task(第一任务)、second_task(第二任务)、last_task(最后一项任务)、notes(注释)、title(标题)、model(模型)、temperature(温度)。例如:
- formatted_prompt:用于生成样本教材文本的原始提示。
- completion:根据使用的模型生成的提示结果。生成的文本多样性与使用的温度值成正比。
- tasks:每个任务对应一个过程的不同部分,如first_task可能生成了引言段落,last_task可能总结了早期任务中识别的关键点。
- notes & title:这两个列提供了每个样本的描述性元数据,包括专家提供的进一步改进建议或其他添加的信息以及由专家分配的标题。
研究想法:
- 自动分配课程和主题的文本分类
- 生成教材或教育材料的自然语言摘要,如用于搜索引擎优化的文档描述
- 设计用于训练机器学习模型的新任务,如预测不完整句子的完成形式以提高文档撰写时的自动补全能力
数据集列说明:
- formatted_prompt:用于数据集中的格式化提示(字符串)
- completion:提示的完成内容(字符串)
- first_task:与提示相关的第一项任务(字符串)
- second_task:与提示相关的第二项任务(字符串)
- last_task:与提示相关的最后一项任务(字符串)
- notes:与提示相关的任何附加注释(字符串)
- title:提示的标题(字符串)
- model:用于生成提示的模型(字符串)
- temperature:生成提示时使用的温度(浮点数)