印度短信垃圾信息与正常信息分类数据集

印度短信垃圾信息与正常信息分类数据集 数据来源:互联网公开数据 标签:短信,垃圾信息,文本分类,自然语言处理,数据分析,机器学习,信息过滤

数据概述: 本数据集收录了5,574条英文短信消息,每条短信均被标记为垃圾信息(spam)或正常信息(ham)。数据集的构建来源于互联网上的免费或研究用途公开资源,具体包括从Grumbletext网站手动提取的425条垃圾短信,以及从Caroline Tag博士论文中收集的450条正常短信。该数据集为研究短信垃圾信息的识别与过滤提供了重要的基础数据。

数据用途概述: 该数据集适用于短信垃圾信息的识别与分类研究、自然语言处理模型的训练与评估、机器学习算法的开发与验证等多种场景。研究人员可利用此数据集进行文本分类模型的构建与优化,提高垃圾信息识别的准确率;企业可使用该数据集开发有效的垃圾信息过滤系统,保障用户的信息安全;教育机构可借助数据集进行相关的教学与科研活动,培养学生的数据分析与编程能力。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 0.21 MiB
最后更新 2025年4月14日
创建于 2025年4月14日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。