找到1个数据集

标签: 模拟人类判断

过滤结果
  • 图灵测试中语言模型作为评委的性能评估数据集

    2025年12月12日 30 98 59

    数据集概述 本数据集围绕图灵测试展开,核心内容是评估语言模型作为评委的性能表现。通过相关实验设计,旨在探究语言模型在判断对话对象是否为人类时的能力,为人工智能评估领域提供数据支持。 文件详解 文件名称: conversas_teste_de_turing.pdf 文件格式: PDF (.pdf) 文件内容:...
    packageimg