数据集

统一多源数据集-DAIGT竞赛数据集

统一多源数据集-DAIGT竞赛数据集数据来源：互联网公开数据标签：DAIGT竞赛,LLM生成文本,数据增强,训练数据,文本分析,自然语言处理,NLP,Kaggle数据集

数据概述：本数据集是针对DAIGT竞赛而编译的多个公开数据集的集合。数据集包含了来自Kaggle平台的多种与大语言模型（LLM）相关的公开数据集，旨在辅助增强原始竞赛提供的训练数据。数据集内容涵盖了不同来源的LLM生成的文本样本，包括但不限于LLM生成论文、LLM生成的论文摘要、LLM生成的论证文本等。数据集中的每条记录都标注了其原始来源（kaggle_repo编号），便于用户追踪数据出处。

数据用途概述：该数据集适用于文本分析、自然语言处理（NLP）、机器学习模型训练等场景。研究人员和竞赛参与者可以利用此数据集进行数据增强，提升模型的泛化能力；同时，该数据集也适合用于教育研究，帮助学习者理解LLM生成文本的特征和模式。此外，数据集中的多样化数据来源有助于用户更好地评估和比较不同LLM模型的性能。

举例：本数据集包含多个子数据集，每个子数据集分别来自不同的公开来源： 1. LLM生成论文数据集 - kaggle_repo: 1 2. ArguGPT数据集 - kaggle_repo: 2 3. DAIGT外部数据集 - kaggle_repo: 3 4. DAIGT数据集（包含Llama 70b和Falcon 180b模型生成的数据）- kaggle_repo: 4 5. DAIGT正式训练数据集 - kaggle_repo: 5 6. Hello, Claude! 1000篇由7个说服性提示生成的论文 - kaggle_repo: 6 7. LLM生成的论文摘要数据集（使用Google Gen-AI的PaLM模型）- kaggle_repo: 7 8. Persuade Corpus 2.0数据集 - kaggle_repo: 8 9. Feedback Prize 3数据集 - kaggle_repo: 9

通过整合这些数据集，研究人员可以获取更加丰富和多样的文本数据，从而有效地提高机器学习模型的训练效果。

数据与资源

统一多源数据集-DAIGT竞赛数据集.zipZIP
33.29 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	33.29 MiB
最后更新	2025年4月25日
创建于	2025年4月25日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

统一多源数据集-DAIGT竞赛数据集

数据与资源

附加信息

注册成功！