统一多源数据集-DAIGT竞赛数据集
数据来源:互联网公开数据
标签:DAIGT竞赛,LLM生成文本,数据增强,训练数据,文本分析,自然语言处理,NLP,Kaggle数据集
数据概述:
本数据集是针对DAIGT竞赛而编译的多个公开数据集的集合。数据集包含了来自Kaggle平台的多种与大语言模型(LLM)相关的公开数据集,旨在辅助增强原始竞赛提供的训练数据。数据集内容涵盖了不同来源的LLM生成的文本样本,包括但不限于LLM生成论文、LLM生成的论文摘要、LLM生成的论证文本等。数据集中的每条记录都标注了其原始来源(kaggle_repo编号),便于用户追踪数据出处。
数据用途概述:
该数据集适用于文本分析、自然语言处理(NLP)、机器学习模型训练等场景。研究人员和竞赛参与者可以利用此数据集进行数据增强,提升模型的泛化能力;同时,该数据集也适合用于教育研究,帮助学习者理解LLM生成文本的特征和模式。此外,数据集中的多样化数据来源有助于用户更好地评估和比较不同LLM模型的性能。
举例:
本数据集包含多个子数据集,每个子数据集分别来自不同的公开来源:
1. LLM生成论文数据集 - kaggle_repo: 1
2. ArguGPT数据集 - kaggle_repo: 2
3. DAIGT外部数据集 - kaggle_repo: 3
4. DAIGT数据集(包含Llama 70b和Falcon 180b模型生成的数据)- kaggle_repo: 4
5. DAIGT正式训练数据集 - kaggle_repo: 5
6. Hello, Claude! 1000篇由7个说服性提示生成的论文 - kaggle_repo: 6
7. LLM生成的论文摘要数据集(使用Google Gen-AI的PaLM模型)- kaggle_repo: 7
8. Persuade Corpus 2.0数据集 - kaggle_repo: 8
9. Feedback Prize 3数据集 - kaggle_repo: 9
通过整合这些数据集,研究人员可以获取更加丰富和多样的文本数据,从而有效地提高机器学习模型的训练效果。