DAIGT混合段落数据集v1-2024-serjhenrique

DAIGT混合段落数据集v1-2024-serjhenrique 数据来源:互联网公开数据 标签:DAIGT,混合数据集,段落,机器学习,人类生成,文本分析,概率分布

数据概述: 本数据集是DAIGT V2训练数据集的修改版本,基于指定的笔记本构建。原始数据集按段落分割,每个来源(机器学习模型或人类)和提示名称组成了一个段落组,从中根据来源的概率随机选择段落,创建混合样本。新增的数据段落标记为来源“mixed”。

2024年1月8日更新: 发布了新版本,修正了样本生成逻辑,确保每个样本ID有0.8的概率包含来自类别0的段落,0.2的概率包含来自类别1的段落。在之前的版本中,存在一个样本可能完全来自一个类别的情况。

数据用途概述: 该数据集适用于文本分析、机器学习模型评估、混合文本生成等场景。研究者和开发者可以利用此数据集进行模型训练和验证,对比机器学习生成文本与人类生成文本的差异,优化文本生成算法。此外,数据集也适用于教学和演示,帮助学习者理解文本生成和混合文本处理的基本概念。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 43.27 MiB
最后更新 2025年4月22日
创建于 2025年4月22日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。