法国建筑技术规范木工条款命名实体识别与关系抽取标注数据集

数据集概述

本数据集包含从法国建筑技术规范(CCTP)中提取的二百三十三条原始木工条款要求,来源于七十二份法国公共建筑项目的CCTP文档,涵盖一万九千七百二十五句、六十五万一千九百四十八个词。数据集通过Doccano工具完成命名实体识别(NER)和关系抽取(RE)标注,适用于建筑领域需求工程的自然语言处理研究。

文件详解

  • 原始CCTP文档:共七十二个PDF文件(如CCTP_menuiserie_4.pdf、CCTP_menuiserie_28.pdf等),为提取原始木工条款要求的来源文件
  • 标注数据集文件:admin_version1.jsonl(JSONLines格式),包含命名实体识别和关系抽取的标注数据,标注内容为建筑需求领域内的实体及实体间关系

适用场景

  • 建筑领域NLP模型训练:用于开发针对建筑技术规范文本的命名实体识别与关系抽取模型
  • 需求工程研究:支持建筑项目需求提取、合规性分析的算法研究
  • 建筑知识管理:助力建筑领域结构化信息抽取与知识图谱构建
  • AEC行业文本处理:推动建筑工程领域专业文本的智能化处理与应用
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 43.09 MiB
最后更新 2025年12月15日
创建于 2025年12月15日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。