金融问答基准测试数据集-2023-yousefsaeedian
数据来源:互联网公开数据
标签:金融问答,LLM评估,公开数据,金融文档,机器学习模型,性能基准,企业应用
数据概述:
金融问答基准测试数据集(FinanceBench)是首个用于评估大语言模型(LLM)在开放书金融问答性能的测试套件。该数据集包含150个标注示例,涵盖了10,231个关于公开交易公司的问答对,每个问答对包括问题、答案、证据字符串等相关信息。数据集中的问题具有生态学上的有效性,涵盖了多种场景,旨在作为最低性能标准,易于理解和回答。
数据用途概述:
该数据集适用于大语言模型性能评估、金融问答系统的开发与优化、教育训练和研究分析等场景。研究者可以利用该数据集评估现有模型在金融问答任务中的表现,识别模型的局限性;企业可以参考该数据集优化金融问答系统的准确性与可靠性。
数据集包含以下字段:
- financebench_id:唯一问题标识符
- question:感兴趣的问题
- answer:标准答案
- question_type:问题类型(领域相关、指标生成、新颖生成)
- doc_name:相关金融文档名称
- doc_link:获取相关金融文档的URL
- doc_period:相关金融文档的时期
- evidence_text:提取的证据文本
- page_number:证据文本所在的页码
引用方式:
如果您使用了我们的开源数据集或参考了我们的研究成果,请使用以下引用格式:
@misc{islam2023financebench,
title={FinanceBench: A New Benchmark for Financial Question Answering},
author={Pranab Islam and Anand Kannappan and Douwe Kiela and Rebecca Qian and Nino Scherrer and Bertie Vidgen},
year={2023},
eprint={2311.11944},
archivePrefix={arXiv},
primaryClass={cs.CL}
}