VUAMC_Based_BNC_Baby隐喻标注语料库数据

数据集概述

本数据集为VUAMC隐喻标注语料库,选取BNC-Baby文件中的摘录文本进行隐喻标注,涵盖学术文本、新闻文本、小说、对话四种语域,各约五万字。标注内容包括隐喻相关词、隐喻信号词、非隐喻相关词等类别,隐喻相关词进一步区分明确隐喻与边界案例,以及直接、间接、隐性隐喻类型,还标注了多词表达式和隐喻分析排除词。

文件详解

  • 文件名称:VUAMC.json
  • 文件格式:JSON
  • 字段映射介绍:包含BNC-Baby摘录文本的隐喻标注信息,主要类别包括隐喻相关词(MRW)、隐喻信号词(MFlag)、非隐喻相关词;隐喻相关词细分明确隐喻与边界案例(WIDLII),以及直接隐喻、间接隐喻、隐性隐喻类型;同时标注了约百分之一点五的多词表达式和约百分之零点零二的隐喻分析排除词。

适用场景

  • 隐喻语言研究:分析不同语域(学术、新闻、小说、对话)中隐喻的使用特征与分布规律。
  • 自然语言处理模型训练:作为隐喻识别、分类任务的标注语料,支撑隐喻处理算法开发。
  • 语域对比分析:探究四种语域在隐喻表达、多词表达式使用上的差异。
  • 隐喻边界案例研究:基于WIDLII标注,研究隐喻与非隐喻的模糊边界判定逻辑。
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 0.07 MiB
最后更新 2026年1月30日
创建于 2026年1月30日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。