统一多源数据集-DAIGT竞赛数据集

统一多源数据集-DAIGT竞赛数据集 数据来源:互联网公开数据 标签:DAIGT竞赛,LLM生成文本,数据增强,训练数据,文本分析,自然语言处理,NLP,Kaggle数据集

数据概述: 本数据集是针对DAIGT竞赛而编译的多个公开数据集的集合。数据集包含了来自Kaggle平台的多种与大语言模型(LLM)相关的公开数据集,旨在辅助增强原始竞赛提供的训练数据。数据集内容涵盖了不同来源的LLM生成的文本样本,包括但不限于LLM生成论文、LLM生成的论文摘要、LLM生成的论证文本等。数据集中的每条记录都标注了其原始来源(kaggle_repo编号),便于用户追踪数据出处。

数据用途概述: 该数据集适用于文本分析、自然语言处理(NLP)、机器学习模型训练等场景。研究人员和竞赛参与者可以利用此数据集进行数据增强,提升模型的泛化能力;同时,该数据集也适合用于教育研究,帮助学习者理解LLM生成文本的特征和模式。此外,数据集中的多样化数据来源有助于用户更好地评估和比较不同LLM模型的性能。

举例: 本数据集包含多个子数据集,每个子数据集分别来自不同的公开来源: 1. LLM生成论文数据集 - kaggle_repo: 1 2. ArguGPT数据集 - kaggle_repo: 2 3. DAIGT外部数据集 - kaggle_repo: 3 4. DAIGT数据集(包含Llama 70b和Falcon 180b模型生成的数据)- kaggle_repo: 4 5. DAIGT正式训练数据集 - kaggle_repo: 5 6. Hello, Claude! 1000篇由7个说服性提示生成的论文 - kaggle_repo: 6 7. LLM生成的论文摘要数据集(使用Google Gen-AI的PaLM模型)- kaggle_repo: 7 8. Persuade Corpus 2.0数据集 - kaggle_repo: 8 9. Feedback Prize 3数据集 - kaggle_repo: 9

通过整合这些数据集,研究人员可以获取更加丰富和多样的文本数据,从而有效地提高机器学习模型的训练效果。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 33.29 MiB
最后更新 2025年4月25日
创建于 2025年4月25日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。