印度尼西亚新闻标题数据集1963-2021-ibamibrahim
数据来源:互联网公开数据
标签:印尼新闻,新闻标题,数据集,NLP,文本分析,分类,数据科学
数据概述:
本数据集收录了超过90,000条来自印尼最大新闻门户网站detik.com的印尼新闻标题。数据集旨在丰富印尼自然语言处理(NLP)领域的资源,非常适合初学者开始处理真实世界数据。
数据收集方法:
数据通过简单的网络抓取技术收集,使用了一些Python库,如BeautifulSoup4。
数据结构:
CSV文件中包含以下字段:
Date:新闻发布日期
URL:新闻在detik.com上的链接
Title:新闻标题
Category:新闻类别。枚举值:['finance', 'food', 'health', 'hot', 'inet', 'news', 'oto', 'sport', 'travel']
每个标题已标记类别,可用于执行各种数据科学任务,如监督学习、无监督学习等。
数据用途概述:
该数据集适用于新闻文本分析、分类任务练习、自然语言处理研究等场景。研究人员可以利用此数据进行数据挖掘、模式识别等操作;教育者可以利用此数据进行教学,帮助学生理解文本分析的基本概念;新闻从业者可从中获取市场趋势和公众关注点的洞察。