印尼新闻标题数据集

印尼新闻标题数据集 数据来源:互联网公开数据
标签:印尼,新闻标题,clickbait,自然语言处理,文本分类,新闻媒体,数据标注

数据概述:
本数据集由 CLICK-ID 数据集组成,主要包含来自 12 家印尼本地新闻网站(如 detikNews、Fimela、Kapanlagi 等)的新闻标题数据。数据集分为两部分:(1) 46,119 条原始新闻数据,(2) 15,000 条经过标注的新闻标题样本。标注工作由 3 名标注员完成,基于新闻标题进行判断,最终以多数意见作为标注结果。标注结果中包含 6,290 条 clickbait 标签和 8,710 条非 clickbait 标签。数据集包含两个文件夹:raw 文件夹存储原始数据文件,包含标题、来源、日期、类别、子类别、内容和 URL 等字段;annotated 文件夹存储标注后的标题数据,包含标题、标签和标签分数等字段。

数据用途概述:
该数据集适用于 clickbait 检测、文本分类、自然语言处理研究等场景。研究人员可以利用此数据集进行 clickbait 标题识别模型的训练与评估,探索 clickbait 标题的特征及其对读者行为的影响。此外,数据集还可以用于新闻媒体内容分析,帮助企业或机构优化新闻标题策略,提升用户点击率或阅读体验。数据集也适合用于教学和培训,帮助学习者理解 clickbait 标题的定义及其在实际应用中的表现。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 143.75 MiB
最后更新 2025年4月19日
创建于 2025年4月19日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。