公共需求文档数据集PURE

数据集概述

该数据集包含从网络收集的79份公开自然语言需求文档,共34268个句子,适用于需求工程领域的自然语言处理任务,如模型合成、抽象识别等,可进一步标注为歧义检测等任务的基准。

文件详解

该数据集包含以下文件,具体说明如下: - 压缩文件: - requirements.zip:包含所有PDF格式的需求文档 - requirements-xml.zip:包含19份XML格式的需求文档子集 - 模式文件: - req_document.xsd:XML文件的XSD模式定义,用于规范XML文档结构

适用场景

  • 需求工程领域的自然语言处理任务研究,如模型合成、抽象识别
  • 需求文档结构评估与分析
  • 歧义检测、需求分类等任务的基准数据集构建
  • 需求文档语言特性与通用英语文本的对比研究
  • XML格式需求文档的标准化处理与NLP实验复现支持
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 32.43 MiB
最后更新 2025年12月5日
创建于 2025年12月5日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。