数据集概述
本数据集包含NatureKG相关资源,NatureKG是面向自然金融领域(聚焦建筑环境部门)开发的本体与知识图谱,同时提供用于训练LLM将文本转换为Cypher查询的数据集及建筑环境与来源信息数据,支持自然金融领域的知识组织与语义查询。
文件详解
- Neo4j dump文件
- 文件名称:neo4j.dump
- 文件格式:dump
- 字段映射介绍:包含NatureKG知识图谱的本体类(如Actions、Drivers of Nature Loss、Value Chains、Evidence、Sources)及其关系(如MITIGATES、ALIGNS_WITH、CITED_IN)实例化内容
- Text2Cypher数据集
- 文件名称:merged_cleaned_text_to_cypher.json
- 文件格式:JSON
- 字段映射介绍:包含自然语言问题-查询对,用于训练和评估LLMs将文本转换为针对NatureKG的Cypher查询
- 建筑环境与来源信息文件
- 文件名称:Built_environment_nodes_info.xlsx
- 文件格式:Excel(.xlsx)
- 字段映射介绍:包含来自ENCORE、Science Based Targets Network(SBTN)和科学文献的 curated数据源及实例化详情
适用场景
- 自然金融知识组织与管理: 利用本体和知识图谱结构,系统化组织自然金融领域(建筑环境部门)的概念与关系
- LLM语义查询训练: 使用Text2Cypher数据集训练大语言模型,实现自然语言到Cypher查询的转换,支持NatureKG的语义检索
- 自然金融领域研究: 基于知识图谱分析自然损失驱动因素、行动与价值链的关联,为自然金融决策提供数据支撑
- 建筑环境数据整合: 整合ENCORE、SBTN等来源的建筑环境数据,支持相关领域的交叉分析与应用开发