数据集概述
本数据集包含两组配对数据,模拟公众咨询场景。人类数据集涵盖约一千名英国居民对五个类公众咨询问题的自由文本回答,包含受访者自标主题标签及三名众包工作者的标注;LLM数据集基于人类回答生成,包含同一问题下的合成回复,由预设主题、角色设定及人类回答示例引导生成。
文件详解
- 人类调查数据文件
- 文件名称:human_consultation_public.xlsx
- 文件格式:XLSX
- 字段映射介绍:包含英国居民对五个类公众咨询问题的自由文本回答,受访者自标主题标签,以及三名众包工作者对回答的标注信息
- LLM调查数据文件
- 文件名称:llm_consultation_public.xlsx
- 文件格式:XLSX
- 字段映射介绍:包含基于人类回答生成的合成回复,数据生成由预设主题、角色设定及人类回答示例引导,覆盖与人类数据集相同的五个问题
适用场景
- 自然语言处理模型评估: 对比人类与LLM生成的自由文本回答在主题一致性、内容合理性等方面的差异
- 公众咨询数据分析: 研究公众对特定问题的反馈模式,以及LLM模拟公众意见的可行性
- 文本标注研究: 分析受访者自标标签与众包工作者标注的一致性,探索文本标注方法的优化方向
- 人机交互研究: 探究人类与AI在自由文本生成任务中的表现差异及互补性