数据集

基于HC3的RADAR模型检测基准数据集-2023-noellan

基于HC3的RADAR模型检测基准数据集-2023-noellan 数据来源：互联网公开数据标签：RADAR,检测模型,Transformer,HC3,基准测试,AI生成内容,人类撰写内容,同义转换,对撞学习,零样本学习

数据概述：本数据集用于评估和改进基于Transformer架构的检测模型（如RADAR）在区分AI生成内容和人类撰写内容方面的性能，特别是在面对同义转换文本时的能力。数据集基于公开可用的HC3语料库，并通过Open Sourced Llama 2和3.1以及GPT-4生成了多个版本的同义转换文本。数据集中的每个条目包括问题、原始答案及其来源，并添加了由不同模型生成的多个版本的同义转换答案。

数据集包含以下字段： - question：问题 - answer：原始答案 - source：答案来源 - paraphrased_responses：由Llama生成的第一版同义转换答案 - paraphrased2_llama：由Llama生成的第二版同义转换答案 - paraphrased3_llama：由Llama生成的第三版同义转换答案 - paraphrased_ICL_texts：用于上下文学习的少量样本输入文本 - paraphrased_gpt4omini：由GPT-4生成的第一版同义转换答案 - paraphrased2_gpt4omini：由GPT-4生成的第二版同义转换答案 - paraphrased3_gpt4omini：由GPT-4生成的第三版同义转换答案

数据用途概述：该数据集适用于多种研究和开发场景，包括检测模型的性能评估、模型改进、上下文学习算法的测试、零样本学习方法的研究等。研究者可以利用该数据集评估不同模型在识别AI生成内容方面的准确性和鲁棒性；开发人员可以基于此数据集优化和改进现有的检测模型；教育机构可以使用该数据集进行高阶AI检测技术的教学和培训。此外，数据集还适合用于评估同义转换技术在生成对抗检测中的应用效果。

数据与资源

versions_20250410071952.zipZIP
1.81 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	1.81 MiB
最后更新	2025年4月22日
创建于	2025年4月22日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

基于HC3的RADAR模型检测基准数据集-2023-noellan

数据与资源

附加信息

注册成功！