规范性文档交互式问答数据集

数据集概述

该数据集包含基于十二份不同机构(大学与银行)规范性文档的问答对,由十五名标注者手动生成一千七百六十七个问题。文档平均十四页,每页约十二点八个问题,每段一点一个问题,段落覆盖率约百分之三十三。问答对含文档标题、路径、问题及原文答案,部分问题提供优化版本,支持交互式问答系统测试。

文件详解

该数据集包含文档文件与数据文件两类,具体说明如下: - 文档文件(位于documents/目录下): - 格式:PDF - 内容:十二份原始规范性文档,如《布尔诺孟德尔大学学习规则》《麻省理工学院学期规定与考试政策》《汇丰银行个人信用额度条款与条件》等 - 数据文件(位于data/目录下): - 格式:CSV(以分号为分隔符,双引号转义字符串) - 字段映射: - document:文档名称 - category:答案所在文档的标题路径(从根目录到章节) - question:问题内容(含原始版与标注"optimized"的优化版) - long_answer:文档原文中的答案文本 - 示例文件:mendelu-study-regulations.pdf.csv、hsbc-terms.pdf.optimized.csv

适用场景

  • 问答系统研发:用于训练和测试基于结构化文档的交互式问答模型
  • 自然语言处理研究:探究规范性文档的语义理解与信息抽取技术
  • 文档检索优化:分析结构化路径信息对问答效率的提升作用
  • 教育与金融领域应用:开发针对大学规则、银行条款的智能问答工具
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 5.39 MiB
最后更新 2025年11月28日
创建于 2025年11月28日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。