印度尼西亚新闻标题数据集1963-2021-ibamibrahim

印度尼西亚新闻标题数据集1963-2021-ibamibrahim 数据来源:互联网公开数据 标签:印尼新闻,新闻标题,数据集,NLP,文本分析,分类,数据科学 数据概述: 本数据集收录了超过90,000条来自印尼最大新闻门户网站detik.com的印尼新闻标题。数据集旨在丰富印尼自然语言处理(NLP)领域的资源,非常适合初学者开始处理真实世界数据。 数据收集方法: 数据通过简单的网络抓取技术收集,使用了一些Python库,如BeautifulSoup4。 数据结构: CSV文件中包含以下字段:

Date:新闻发布日期

URL:新闻在detik.com上的链接

Title:新闻标题

Category:新闻类别。枚举值:['finance', 'food', 'health', 'hot', 'inet', 'news', 'oto', 'sport', 'travel']

每个标题已标记类别,可用于执行各种数据科学任务,如监督学习、无监督学习等。 数据用途概述: 该数据集适用于新闻文本分析、分类任务练习、自然语言处理研究等场景。研究人员可以利用此数据进行数据挖掘、模式识别等操作;教育者可以利用此数据进行教学,帮助学生理解文本分析的基本概念;新闻从业者可从中获取市场趋势和公众关注点的洞察。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 4.56 MiB
最后更新 2025年4月22日
创建于 2025年4月22日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。