孟加拉语点击诱饵检测数据集

孟加拉语点击诱饵检测数据集 数据来源:互联网公开数据
标签:点击诱饵,孟加拉语,新闻分类,文本分析,半监督学习,自然语言处理

数据概述:
本数据集是首个专注于孟加拉语点击诱饵检测的大型数据集,旨在解决低资源语言环境中点击诱饵识别的挑战。数据集包含15,406条标注的新闻文章及65,405条未标注的新闻文章,所有数据均来自孟加拉语新闻网站。每篇文章经过三位专业语言学家的标注,包含标题、正文及元数据(如发布时间、类别等)。数据集采用半监督生成对抗网络(SS-GANs)对预训练的孟加拉语Transformer模型进行微调,为后续研究提供了良好的基准。

数据用途概述:
该数据集适用于孟加拉语点击诱饵检测模型的开发与评估,支持半监督学习、生成对抗网络等技术的研究。研究人员可利用此数据集探索更高效的文本分类算法,提升点击诱饵检测的准确率。此外,数据集可用于学术研究,帮助填补孟加拉语等低资源语言在点击诱饵检测领域的空白。该数据集还适用于内容审核系统,帮助识别和过滤具有误导性的新闻标题。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 91.45 MiB
最后更新 2025年4月16日
创建于 2025年4月16日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。