DWUG_DE_Sense_Based_德语历史词义标注数据集_v1_0_1

数据集概述

本数据集为DWUG DE词汇使用数据的子集,包含德语词汇的历史词义标注,涵盖经聚合清洗的词义标签、词汇使用对的二元语义接近度标签及词义变化标签,可用于词汇语义归纳与语义变化检测研究,版本为1.0.1。

文件详解

  • 文件名称:dwug_de_sense.zip
  • 文件格式:ZIP
  • 字段映射介绍:压缩包内包含三类核心文件:
  • judgments_senses.csv:原始词义标注数据,记录词汇使用的人工词义标注结果
  • labels_senses.csv:聚合清洗后的词义标签,仅保留至少三分之二标注者一致的结果
  • labels_proximity.csv:词汇使用对的二元语义接近度标签(0为不同词义、1为相同词义)
  • stats_groupings.csv:词义变化标签,反映两个时间段词汇使用的词义变化情况

数据来源

论文“Sense Through Time: Diachronic Word Sense Annotations for Word Sense Induction and Lexical Semantic Change Detection”

适用场景

  • 词汇语义归纳研究:利用清洗后的词义标签训练和评估词义归纳模型
  • 词汇语义变化检测:基于词义变化标签分析德语词汇在不同历史时期的语义演变规律
  • 语义接近度计算:通过二元接近度标签验证语义相似度算法的准确性
  • 标注一致性分析:研究人工词义标注的一致性标准对结果的影响
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 1.37 MiB
最后更新 2026年1月20日
创建于 2026年1月20日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。