DBpedia_Based_知识库问答问题与答案类型标注数据集

数据集概述

本数据集包含37279个基于DBpedia的知识库问答问题,以及对应的答案类别和类型列表。问题来源于QALD 1-9、LC-QuAD 1.0和SimpleDBpediaQA的训练与测试数据集,答案类型体系采用自ISWC 2020的SMART-task挑战标准,为知识库问答任务的模型训练与评估提供标注数据支持。

文件详解

  • 文件名称:answertype_dataset.json
  • 文件格式:JSON
  • 字段映射介绍:数据集为JSON数组结构,每条记录包含以下字段:
  • id:原始知识库问答数据集的问题ID
  • source:原始知识库问答数据集名称
  • question:自然语言问题文本
  • category:答案类别,取值为literal(文字)、resource(资源)或boolean(布尔)
  • type:答案类型列表,资源类答案对应本体类别列表,文字类答案对应string/date/number,布尔类答案对应boolean

适用场景

  • 知识库问答模型训练: 用于训练识别问题答案类型的模型,提升问答系统的准确性
  • 答案类型标注体系研究: 分析SMART-task挑战答案类型体系在实际问答场景中的适用性
  • 问答数据集评估: 对比不同知识库问答数据集(QALD/LC-QuAD/SimpleDBpediaQA)的问题类型分布特征
  • 自然语言处理任务迁移: 为跨数据集的问答任务迁移学习提供统一的答案类型标注基准
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 1.51 MiB
最后更新 2026年1月29日
创建于 2026年1月29日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。