印尼语评论情感分析数据集SERFEE

印尼语评论情感分析数据集SERFEE 数据来源:互联网公开数据 标签:情感分析,印尼语,文本数据,机器学习,自然语言处理,评论,情感分类 数据概述: 本数据集专为印尼语情感分析任务设计,通过整合“indonlu”和“google-play-review”两个现有数据集构建而成。“indonlu”数据集来源于“indonlp/indonlu”软件包,“google-play-review”数据集则来自Jakarta Research GitHub 仓库,并移除了“stars”列。

数据集包含三个主要子集:训练集(train)、验证集(validation,val)和测试集(test)。每个子集都标注了三种情感类别:0(负面)、1(中性)和2(正面)。各子集的标签分布如下:

训练集: 标签 0:6416 个样本 标签 1:5410 个样本 标签 2:6416 个样本

验证集: 标签 0:735 个样本 标签 1:735 个样本 标签 2:735 个样本

测试集: 标签 0:208 个样本 标签 1:88 个样本 标签 2:204 个样本

为了确保情感类别间的平衡,在数据集创建过程中应用了过采样技术。此外,还进行了预处理步骤,包括使用 Sastrawi 库进行停用词处理和词干提取。

数据用途概述: 该数据集适用于开发和评估印尼语情感分析的机器学习模型。研究人员和实践者可以使用此数据进行情感分类、情绪识别等任务,以深入理解印尼语文本的情感表达。

免责声明: 本数据集通过合并现有数据集并经过特定预处理步骤创建。虽然已努力确保数据质量,但仍可能存在一些固有的局限性或偏见。建议用户在使用前根据其特定需求审查和验证数据集。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 1.1 MiB
最后更新 2025年4月15日
创建于 2025年4月15日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。