GPT的文本处理能力任务提取与评估数据

数据集概述

本数据集包含多份表格,用于评估GPT 1、GPT 2、GPT 3、GPT 3.5和GPT 4从文本流程描述中提取任务的能力。数据基于Zenodo和PET数据集,通过多种相似性指标(如语义文本相似度、召回率、精确率、Jaccard指数等)衡量模型性能,并包含用户调查数据,总计4个文件。

文件详解

  • 模型完整性数据文件
  • 文件名称:model_completeness.zip
  • 文件格式:ZIP
  • 字段映射介绍:包含评估模型从文本中提取任务完整性相关的数据,具体内容需解压后查看
  • 模型正确性数据文件
  • 文件名称:model_correctness.xlsx
  • 文件格式:XLSX
  • 字段映射介绍:包含评估模型提取任务正确性的相关数据,具体字段未提供预览
  • 控制评估数据文件
  • 文件名称:control_evaluation.xlsx
  • 文件格式:XLSX
  • 字段映射介绍:包含对照实验评估数据,具体字段未提供预览
  • 调查数据文件
  • 文件名称:survey_data.ods
  • 文件格式:ODS
  • 字段映射介绍:包含40名用户对LLM生成模型质量评估的调查数据,具体字段未提供预览

适用场景

  • 大语言模型任务提取能力评估: 分析不同版本GPT模型从文本流程描述中提取任务的完整性和正确性
  • 语义相似性指标应用研究: 探索语义文本相似度、Jaccard指数等指标在模型性能评估中的效果
  • 模型对比分析: 对比GPT系列模型在任务提取任务上的性能差异与演进趋势
  • 用户评估数据研究: 基于调查数据分析用户对LLM生成模型的质量感知与评价标准
  • 文本流程处理应用开发: 为文本流程自动化处理相关应用提供模型性能参考数据
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 0.71 MiB
最后更新 2026年2月10日
创建于 2026年2月10日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。