Portuguese_Comparative_Sentences_标注数据集_社交媒体与电商评论

数据集概述

本数据集为葡萄牙语比较句标注数据,包含葡萄牙语比较词词典、Twitter社交媒体标注句及Buscapé电商平台标注句三部分。数据由人工标注,涵盖比较句类型、比较实体、关键词等信息,是葡萄牙语比较意见分析的基础资源。

文件详解

  • 葡萄牙语比较词词典文件
  • 文件名称:portuguese_lexicon.csv
  • 文件格式:CSV
  • 字段映射介绍:包含176个葡萄牙语中常用于表达比较意见的词汇,如mais(更)、maior(更大)、melhor(更好)等
  • Twitter标注数据集文件
  • 文件名称:dataset_twitter.json
  • 文件格式:JSON
  • 字段映射介绍:包含text(句子文本)、entity_s1(比较实体1)、entity_s2(比较实体2)、keyword(比较关键词)、preferred_entity(偏好实体)、id_start(关键词起始位置)、id_end(关键词结束位置)、type(句子类型,0-4对应不同比较/非比较类型)字段,共2053条标注句,其中918条为比较句
  • Buscapé标注数据集文件
  • 文件名称:dataset_buscape.json
  • 文件格式:JSON
  • 字段映射介绍:包含与Twitter数据集相同的字段结构,共2754条标注句,其中1282条为比较句

数据来源

论文“Mining Portuguese Comparative Sentences in Online Reviews”

适用场景

  • 葡萄牙语比较句识别研究: 用于训练和测试葡萄牙语文本中比较句的自动识别模型
  • 比较意见挖掘分析: 提取电商评论及社交媒体中的产品比较意见,支持消费者行为研究
  • 情感分析扩展应用: 补充传统情感分析中对比较类意见的处理能力
  • 多语言NLP资源构建: 为葡萄牙语自然语言处理任务提供标注数据支撑
packageimg

数据与资源

该数据集没有数据

附加信息

字段
作者 Maxj
版本 1
数据集大小 0.0 MiB
最后更新 2026年1月9日
创建于 2026年1月9日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。