名词复合词组合性数据集

数据集概述

该数据集包含英语、法语和巴西葡萄牙语三种语言的名词复合词组合性评分数据,以及葡萄牙语复合词的词汇替换扩展标注。评分由母语者完成,涵盖整体及各构词成分的组合性;扩展数据包含词汇替换候选及分类,支持多语言词汇语义研究。

文件详解

该数据集包含压缩包和说明文档,具体如下: - 组合性评分数据集压缩包: - comp-datasets-release-v2.tar.gz:核心数据集压缩包,包含三种语言的复合词组合性评分数据,含190个英语、180个法语、180个巴西葡萄牙语复合词,每个复合词有整体、中心词、修饰词的组合性评分(1-5分)及同义词标注 - 词汇替换扩展数据集压缩包: - lexsub-nc.tar.gz:葡萄牙语复合词扩展数据集压缩包,含180个葡萄牙语复合词的词汇替换候选,标注了替换类型(如同义词、准同义词、释义等)及语料库频率、PMI值 - 历史版本压缩包: - comp-datasets-release.tar.gz:早期版本的组合性评分数据集压缩包 - 说明文档: - README.html:HTML格式的说明文档,提供数据集背景、使用方法及引用信息

数据来源

https://pageperso.lis-lab.fr/carlos.ramisch/?page=downloads/compounds

适用场景

  • 计算语言学研究:用于名词复合词组合性自动预测模型的训练与评估
  • 多语言词汇语义分析:对比不同语言复合词的组合性特征差异
  • 词汇替换任务研究:基于葡萄牙语复合词替换数据,开发词汇替换系统
  • 心理语言学实验:分析母语者对复合词语义透明度的感知机制
  • 自然语言处理应用:为机器翻译、文本理解中的复合词处理提供标注数据
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 3.46 MiB
最后更新 2025年12月6日
创建于 2025年12月6日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。