数据集概述
本数据集为英语测试词汇使用图(TestWUG EN),包含人工创建或从现有数据集中选取的特定测试案例,用于词汇语义分析相关测试。数据涉及afternoon_nn、arm、plane_nn、target四个词汇案例,涵盖不同标注来源、使用量、判断数及聚类结构等特征,版本为1.2.0(2023年6月30日)。
文件详解
- 文件名称:testwug_en.zip
- 文件格式:ZIP
- 字段映射介绍:压缩包内包含英语词汇使用图(WUGs)测试数据,涉及的主要案例信息包括:
- afternoon_nn:来自DWUG EN 2.0.1,200次使用,多标注者标注,427条判断,单聚类结构,无梯度/二元变化,Krippendorff's alpha一致性为0.62
- arm:语义 proximity 标准教材案例,全连接图含6个词汇使用,作者标注
- plane_nn:来自DWUG EN 2.0.1,200次使用,多标注者标注,1152条判断,清晰聚类结构,高梯度/二元变化,Krippendorff's alpha一致性为0.82
- target:类似arm,含3个重复句子,全连接图含8个词汇使用,作者标注,相同句子标注4次,不同句子标注1次
适用场景
- 词汇语义变化研究:测试词汇使用图在语义变化分析中的应用效果
- 标注一致性评估:验证多标注者或作者标注的Krippendorff's alpha一致性指标
- 聚类结构分析:研究词汇使用图的单聚类与多聚类结构特征
- 语义 proximity 测试:基于教材案例验证语义 proximity 分析方法的有效性