Yelp平台用户评价星级分类数据集-细粒度五分类-文本分析-训练与测试
数据来源:互联网公开数据
标签:Yelp,用户评价,星级分类,文本分析,情感分析,机器学习,训练集,测试集,评论数据
数据概述:
本数据集包含Yelp平台用户评论数据,并按照用户给出的星级(1-5星)进行了细粒度分类。数据集分为训练集(train.csv)和测试集(test.csv),其中训练集包含650,000条样本,测试集包含50,000条样本。每个星级类别(1到5星)均随机抽取了130,000条训练样本和10,000条测试样本,保证了数据集的平衡性。
数据集中每个样本包含两个字段:
* class index:评论星级(1-5,整数)
* review text:用户评论文本(字符串),使用双引号(")进行转义,内部双引号使用两个双引号("")表示,换行符使用反斜杠加“n”(\n)表示。
数据用途概述:
该数据集主要用于自然语言处理(NLP)和机器学习任务,特别是情感分析和文本分类。研究人员可以使用该数据集训练和评估情感分析模型,预测用户评论的情感倾向;开发者可以利用该数据集构建基于用户评论的推荐系统或舆情分析工具;教育工作者可以将其作为NLP课程的实践案例,帮助学生掌握文本处理和情感分析的技能。此外,该数据集也适用于研究不同星级评价与评论内容之间的关系,以及探索用户评价行为的模式。