数据集概述
该数据集包含英语、法语和巴西葡萄牙语三种语言的名词复合词组合性评分数据,以及葡萄牙语复合词的词汇替换扩展标注。评分由母语者完成,涵盖整体及各构词成分的组合性;扩展数据包含词汇替换候选及分类,支持多语言词汇语义研究。
文件详解
该数据集包含压缩包和说明文档,具体如下:
- 组合性评分数据集压缩包:
- comp-datasets-release-v2.tar.gz:核心数据集压缩包,包含三种语言的复合词组合性评分数据,含190个英语、180个法语、180个巴西葡萄牙语复合词,每个复合词有整体、中心词、修饰词的组合性评分(1-5分)及同义词标注
- 词汇替换扩展数据集压缩包:
- lexsub-nc.tar.gz:葡萄牙语复合词扩展数据集压缩包,含180个葡萄牙语复合词的词汇替换候选,标注了替换类型(如同义词、准同义词、释义等)及语料库频率、PMI值
- 历史版本压缩包:
- comp-datasets-release.tar.gz:早期版本的组合性评分数据集压缩包
- 说明文档:
- README.html:HTML格式的说明文档,提供数据集背景、使用方法及引用信息
数据来源
https://pageperso.lis-lab.fr/carlos.ramisch/?page=downloads/compounds
适用场景
- 计算语言学研究:用于名词复合词组合性自动预测模型的训练与评估
- 多语言词汇语义分析:对比不同语言复合词的组合性特征差异
- 词汇替换任务研究:基于葡萄牙语复合词替换数据,开发词汇替换系统
- 心理语言学实验:分析母语者对复合词语义透明度的感知机制
- 自然语言处理应用:为机器翻译、文本理解中的复合词处理提供标注数据