单主题RAG评估数据集

单主题RAG评估数据集 数据来源:互联网公开数据 标签:RAG,自然语言处理,文本查询,评估数据集,机器学习,文档检索,问答系统

数据概述: 本数据集旨在评估单主题文档中RAG(Retrieval-Augmented Generation)AI系统的查询性能。数据集包含约120个问答对,涉及文档的词数从数千到数万不等,包括文章、博客和文档等。文档的来源限定在最近几年(截至2024年7月)并保持相对小众,以减少评估的LLM(大型语言模型)可能在训练数据集中包含这些信息的可能性。数据集包含20个文档,每个文档有6个问答对,具体分布为:2个问题无文档答案,2个问题的答案需从单段文档生成,2个问题的答案需从多段文档生成。

数据用途概述: 该数据集适用于评估RAG系统的整体性能,尤其是针对单主题文档的查询能力。研究人员和开发人员可以使用此数据集测试RAG系统的检索和生成能力,确保其能够准确地从相关文档中提取和生成答案。此外,数据集还适合用于比较不同RAG系统的性能,以及评估模型在处理特定主题文档时的效果。

举例: 本数据集中的文档可能包括特定技术栈的文档、某个领域的研究报告或用户手册等。例如,一个文档可能是关于Python编程语言的指南,其中包含多个章节。数据集中的一个问题可能是询问某个函数的用法,答案可以从文档的单个章节中生成;另一个问题可能是询问如何解决特定编程问题,答案需要从文档的多个章节中综合信息才能回答。对于无法从文档中找到答案的问题,数据集建议回答“I do not know”,具体答案可以由用户根据需要决定。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 0.25 MiB
最后更新 2025年4月14日
创建于 2025年4月14日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。