DAIGT混合段落数据集v1-2024-serjhenrique

DAIGT混合段落数据集v1-2024-serjhenrique 数据来源：互联网公开数据标签：DAIGT,混合数据集,段落,机器学习,人类生成,文本分析,概率分布

数据概述：本数据集是DAIGT V2训练数据集的修改版本，基于指定的笔记本构建。原始数据集按段落分割，每个来源（机器学习模型或人类）和提示名称组成了一个段落组，从中根据来源的概率随机选择段落，创建混合样本。新增的数据段落标记为来源“mixed”。

2024年1月8日更新：发布了新版本，修正了样本生成逻辑，确保每个样本ID有0.8的概率包含来自类别0的段落，0.2的概率包含来自类别1的段落。在之前的版本中，存在一个样本可能完全来自一个类别的情况。

数据用途概述：该数据集适用于文本分析、机器学习模型评估、混合文本生成等场景。研究者和开发者可以利用此数据集进行模型训练和验证，对比机器学习生成文本与人类生成文本的差异，优化文本生成算法。此外，数据集也适用于教学和演示，帮助学习者理解文本生成和混合文本处理的基本概念。

数据与资源

字段	值
版本	1.0
数据集大小	43.27 MiB
最后更新	2025年4月22日
创建于	2025年4月22日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。