Medium平台文章数据集-用于LLM微调-2024
数据来源:互联网公开数据
标签:Medium,文章,文本数据,LLM,微调,自然语言处理,文本生成,摘要,问答
数据概述:
本数据集包含超过10万篇从Medium平台收集的文章,旨在用于大型语言模型(LLM)的微调,特别是用于因果语言建模(CLM)等任务。数据集主要包含两列:标题(title)和正文(text)。
字段定义:
title:Medium文章的标题。
text:Medium文章的主要内容或正文。
数据用途概述:
该数据集可用于多种用途,包括:
语言模型微调:使用此数据集微调预训练的语言模型,以执行文本生成、摘要和问答等特定任务。
因果语言建模:训练模型以理解教学内容中的因果关系,使其适用于问答或基于指令的响应生成等任务。
数据收集:文章来自Medium上各种各样的主题,涵盖广泛的学科和写作风格。数据集经过预处理,仅保留标题和正文列中的相关信息。
版本历史:
版本 1.0:初始版本,包含超过100,000篇用于语言模型微调的Medium文章。
免责声明:
数据集按原样提供,不保证其准确性、完整性或适用于任何特定目的。 鼓励用户在使用前审查和验证数据。