数据集

孟加拉语点击诱饵检测数据集

孟加拉语点击诱饵检测数据集数据来源：互联网公开数据
标签：点击诱饵,孟加拉语,新闻分类,文本分析,半监督学习,自然语言处理

数据概述：
本数据集是首个专注于孟加拉语点击诱饵检测的大型数据集，旨在解决低资源语言环境中点击诱饵识别的挑战。数据集包含15,406条标注的新闻文章及65,405条未标注的新闻文章，所有数据均来自孟加拉语新闻网站。每篇文章经过三位专业语言学家的标注，包含标题、正文及元数据（如发布时间、类别等）。数据集采用半监督生成对抗网络（SS-GANs）对预训练的孟加拉语Transformer模型进行微调，为后续研究提供了良好的基准。

数据用途概述：
该数据集适用于孟加拉语点击诱饵检测模型的开发与评估，支持半监督学习、生成对抗网络等技术的研究。研究人员可利用此数据集探索更高效的文本分类算法，提升点击诱饵检测的准确率。此外，数据集可用于学术研究，帮助填补孟加拉语等低资源语言在点击诱饵检测领域的空白。该数据集还适用于内容审核系统，帮助识别和过滤具有误导性的新闻标题。

数据与资源

孟加拉语点击诱饵检测数据集.zipZIP
91.45 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	91.45 MiB
最后更新	2025年4月16日
创建于	2025年4月16日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

孟加拉语点击诱饵检测数据集

数据与资源

附加信息

注册成功！