InstructIE_Based_双语指令信息抽取数据集

数据集概述

本数据集为InstructIE双语指令信息抽取数据集,包含中文和英文两种语言的指令调优数据,覆盖事件、自然科学、建筑结构等多个类别。数据集由9个文件组成,主要文件格式为JSON和MD,适用于信息抽取任务的模型训练与评估。

文件详解

  • 说明文档
  • 文件名称:README_ZH.md、README.md
  • 文件格式:MD
  • 字段映射介绍:包含数据集的基本说明、使用指南等文档内容
  • 训练数据
  • 文件名称:train_zh.json、train_en.json
  • 文件格式:JSON
  • 字段映射介绍:分别为中文和英文的训练数据文件,用于模型训练
  • 验证数据
  • 文件名称:valid_zh.json、valid_en.json
  • 文件格式:JSON
  • 字段映射介绍:分别为中文和英文的验证数据文件,用于模型验证
  • 测试数据
  • 文件名称:test_en.json
  • 文件格式:JSON
  • 字段映射介绍:英文测试数据文件,用于模型测试
  • 模式定义
  • 文件名称:schema_zh.json、schema_en.json
  • 文件格式:JSON
  • 字段映射介绍:定义数据模式,其中schema_zh.json包含事件、自然科学、建筑结构、地理地区、组织、医学、天文对象、人造物件、运输、作品、生物、人物等类别

适用场景

  • 信息抽取模型训练: 用于训练支持中文和英文的指令驱动信息抽取模型
  • 模型性能评估: 通过验证和测试数据评估信息抽取模型在不同语言和类别上的性能
  • 多语言自然语言处理研究: 探索双语信息抽取任务中的跨语言迁移学习方法
  • 领域特定信息抽取: 针对事件、医学、生物等特定领域开展信息抽取任务研究
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 826.45 MiB
最后更新 2026年1月30日
创建于 2026年1月30日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。