HiT_Based_语言模型层级编码训练评估数据集_2024

数据集概述

本数据集为论文“Language Models as Hierarchy Encoders”提出的Hierarchy Transformer编码器(HiT)提供训练与评估数据,包含多跳推理、混合跳预测及迁移学习场景数据,涉及snomed、schemaorg、foodon等多个本体,共8个压缩文件,支持直接通过Huggingface Datasets加载。

文件详解

  • 多跳推理评估文件
  • 文件名称:snomed-multi.zip、wordnet-multi.zip
  • 文件格式:ZIP
  • 字段映射介绍:包含用于多跳推理任务的评估数据,具体字段需解压后查看原始内容
  • 混合跳预测评估文件
  • 文件名称:snomed-mixed.zip、schemaorg-mixed.zip、doid-mixed.zip、wordnet-mixed.zip、foodon-mixed.zip
  • 文件格式:ZIP
  • 字段映射介绍:包含混合跳预测及迁移学习场景的评估数据,schemaorg仅涉及迁移评估,具体字段需解压后查看原始内容
  • 本体文件
  • 文件名称:ontologies.zip
  • 文件格式:ZIP
  • 字段映射介绍:包含相关本体数据,用于映射实体至原始层级结构

数据来源

论文“Language Models as Hierarchy Encoders”

适用场景

  • 层级编码模型训练:用于训练Hierarchy Transformer编码器,提升语言模型对层级结构的编码能力
  • 多跳推理任务评估:验证模型在多跳推理场景下的性能表现
  • 混合跳预测研究:分析模型在混合跳预测及迁移学习任务中的泛化能力
  • 本体层级映射应用:结合本体文件实现实体与原始层级结构的映射分析
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 225.08 MiB
最后更新 2026年1月29日
创建于 2026年1月29日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。