Zero_shot_Based_多语言应用评论挖掘标注数据集

数据集概述

本数据集包含Google Play平台3款健康应用(Garmin Connect、Huawei Health、Samsung Health)的12000条用户评论标注数据,其中英文和法文各6000条。数据分为分类任务和聚类任务两部分,分类任务标注为问题报告、功能请求、无关三类;聚类任务选取1200条双语标注评论进行人工聚类,用于零样本多语言应用评论挖掘研究。

文件详解

  • 文件名称:dataset.zip
  • 文件格式:ZIP
  • 字段映射介绍:压缩包内包含两类核心数据:
  • 分类数据:12000条标注评论,包含字段:应用名称、语言(英文/法文)、评论内容、标注类别(问题报告/功能请求/无关)
  • 聚类数据:1200条双语标注评论的人工聚类结果,包含字段:应用名称、评论类别(问题报告/功能请求)、聚类ID、聚类大小

数据来源

论文“Zero-shot Bilingual App Reviews Mining with Large Language Models”

适用场景

  • 零样本学习研究:用于验证大语言模型在多语言应用评论分类任务中的零样本迁移能力
  • 应用评论情感分析:分析用户对健康应用的问题反馈与功能需求分布
  • 多语言文本聚类:研究双语评论的语义聚类模式与类别特征
  • 应用优化决策:为健康应用开发者提供用户需求挖掘与问题定位的数据支持
  • 自然语言处理模型训练:作为多语言文本分类与聚类任务的标注训练集
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 0.56 MiB
最后更新 2026年1月29日
创建于 2026年1月29日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。