数据集

HiT_Based_语言模型层级编码训练评估数据集_2024

数据集概述

本数据集为论文“Language Models as Hierarchy Encoders”提出的Hierarchy Transformer编码器（HiT）提供训练与评估数据，包含多跳推理、混合跳预测及迁移学习场景数据，涉及snomed、schemaorg、foodon等多个本体，共8个压缩文件，支持直接通过Huggingface Datasets加载。

文件详解

多跳推理评估文件
文件名称：snomed-multi.zip、wordnet-multi.zip
文件格式：ZIP
字段映射介绍：包含用于多跳推理任务的评估数据，具体字段需解压后查看原始内容
混合跳预测评估文件
文件名称：snomed-mixed.zip、schemaorg-mixed.zip、doid-mixed.zip、wordnet-mixed.zip、foodon-mixed.zip
文件格式：ZIP
字段映射介绍：包含混合跳预测及迁移学习场景的评估数据，schemaorg仅涉及迁移评估，具体字段需解压后查看原始内容
本体文件
文件名称：ontologies.zip
文件格式：ZIP
字段映射介绍：包含相关本体数据，用于映射实体至原始层级结构

数据来源

论文“Language Models as Hierarchy Encoders”

适用场景

层级编码模型训练：用于训练Hierarchy Transformer编码器，提升语言模型对层级结构的编码能力
多跳推理任务评估：验证模型在多跳推理场景下的性能表现
混合跳预测研究：分析模型在混合跳预测及迁移学习任务中的泛化能力
本体层级映射应用：结合本体文件实现实体与原始层级结构的映射分析

数据与资源

14036213.zipZIP
225.08 MiB

下载

附加信息

字段	值
作者	Maxj
版本	1
数据集大小	225.08 MiB
最后更新	2026年1月29日
创建于	2026年1月29日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。