数据集概述
本数据集为DWUG DE词汇使用数据的子集,包含德语词汇的历史词义标注,涵盖经聚合清洗的词义标签、词汇使用对的二元语义接近度标签及词义变化标签,可用于词汇语义归纳与语义变化检测研究,版本为1.0.1。
文件详解
- 文件名称:dwug_de_sense.zip
- 文件格式:ZIP
- 字段映射介绍:压缩包内包含三类核心文件:
- judgments_senses.csv:原始词义标注数据,记录词汇使用的人工词义标注结果
- labels_senses.csv:聚合清洗后的词义标签,仅保留至少三分之二标注者一致的结果
- labels_proximity.csv:词汇使用对的二元语义接近度标签(0为不同词义、1为相同词义)
- stats_groupings.csv:词义变化标签,反映两个时间段词汇使用的词义变化情况
数据来源
论文“Sense Through Time: Diachronic Word Sense Annotations for Word Sense Induction and Lexical Semantic Change Detection”
适用场景
- 词汇语义归纳研究:利用清洗后的词义标签训练和评估词义归纳模型
- 词汇语义变化检测:基于词义变化标签分析德语词汇在不同历史时期的语义演变规律
- 语义接近度计算:通过二元接近度标签验证语义相似度算法的准确性
- 标注一致性分析:研究人工词义标注的一致性标准对结果的影响