数据集概述
本数据集包含ChatGPT3.5、ChatGPT4、Llama3-8B、Mistral-7B四种模型在NYT和HC3主题下,不同角色与参数配置生成的提示词数据。可用于研究不同参数/角色配置对大语言模型词汇层面特征的影响,共包含13个文件。
文件详解
- 文件名称:0_Base_Topics.xlsx
- 文件格式:XLSX
- 字段映射介绍:列出用于生成数据集的基础主题
- 文件名称:Roles_Mistral-7B.xlsx
- 文件格式:XLSX
- 字段映射介绍:Mistral-7B模型在不同角色配置下的提示词数据
- 文件名称:Presence_GPT35.xlsx
- 文件格式:XLSX
- 字段映射介绍:ChatGPT3.5模型在不同存在惩罚参数配置下的提示词数据
- 文件名称:Top_GPT35.xlsx
- 文件格式:XLSX
- 字段映射介绍:ChatGPT3.5模型在不同Top概率参数配置下的提示词数据
- 文件名称:Temperature_GPT35.xlsx
- 文件格式:XLSX
- 字段映射介绍:ChatGPT3.5模型在不同温度参数配置下的提示词数据
- 文件名称:Roles_GPT35.xlsx
- 文件格式:XLSX
- 字段映射介绍:ChatGPT3.5模型在不同角色配置下的提示词数据
- 文件名称:Roles_NYT_GPT4_.xlsx
- 文件格式:XLSX
- 字段映射介绍:ChatGPT4模型在NYT主题不同角色配置下的提示词数据
- 文件名称:Temperature_NTY_GPT4.xlsx
- 文件格式:XLSX
- 字段映射介绍:ChatGPT4模型在NYT主题不同温度参数配置下的提示词数据
- 文件名称:Top_NYT_GPT4.xlsx
- 文件格式:XLSX
- 字段映射介绍:ChatGPT4模型在NYT主题不同Top概率参数配置下的提示词数据
数据来源
论文“Beware of Words: Evaluating the Lexical Diversity of Conversational LLMs using ChatGPT as Case Study”
适用场景
- LLM词汇多样性研究: 分析不同模型、角色与参数配置对大语言模型词汇使用特征的影响
- 自然语言生成参数优化: 研究温度、频率惩罚、Top概率、存在惩罚等参数对生成文本的调控作用
- 对话系统角色适配: 探究不同角色设定(如儿童、年轻人、老年人等)对LLM输出风格的影响
- 学术研究支持: 为LLM评估相关的学术研究提供标准化的提示词数据样本