PMB_VID_德语动词性潜在习语表达式标注数据集

数据集概述

该数据集包含Parallel Meaning Bank中德语动词性潜在习语表达式(PIEs)的标注数据,配套Ehren等人2024年的研究。涵盖多类文件,为分析德语习语表达提供结构化标注及分析工具支持。

文件详解

  • 文档类文件:
  • README.md:Markdown格式,数据集说明文档,含使用方法及参考文献
  • Annotation Guidelines.pdf:PDF格式,标注规范文档,定义习语标注的标准与流程
  • annotator1.txt、annotator2.txt、annotator3.txt:TXT格式,标注文件,包含句子编号、原文、PIE类型、句法弧、误报标记及习语分类(如IAV)
  • discussed-issues.txt:TXT格式,标注过程中讨论问题的记录文档
  • 代码类文件:
  • util.py、pmb_roles.py:Python格式,辅助处理数据的工具脚本
  • analyze.py:Python格式,统计分析脚本,可运行计算数据集相关指标
  • requirements.txt:TXT格式,代码运行所需的依赖包清单

适用场景

  • 计算语言学研究:分析德语动词性习语的句法特征与标注方法
  • 自然语言处理:为习语识别、语义解析模型提供标注训练数据
  • 多词表达式研究:探究潜在习语表达式的分类及分布规律
  • 语言学标注评估:对比不同标注者对习语表达式的标注一致性
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 13.11 MiB
最后更新 2025年12月9日
创建于 2025年12月9日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。