斯里兰卡英文新闻文章数据集
数据来源:互联网公开数据
标签:新闻数据,斯里兰卡,英语新闻,多类别分类,文本分析,数据挖掘,机器学习
数据概述:
本数据集收集自斯里兰卡的四家主要英文新闻网站:Daily Mirror、The Island、News First 和 Ceylon Today,共包含800篇新闻文章。这些新闻文章按照五个类别进行分类,分别是:商业、科技、政治、体育和健康。每个类别包含160篇文章,各领域新闻文章数量均衡分布。此外,数据集中还提供了两种版本的数据:一种仅包含文章标题,另一种则包含文章正文内容。数据集为研究新闻分类、文本挖掘和机器学习算法的应用提供了丰富的素材。
数据用途概述:
该数据集适用于多种应用场景,包括但不限于:
1. 新闻文本分类研究:可用于训练和评估各种分类算法,对新闻文章进行自动分类,帮助快速识别新闻所属领域。
2. 文本挖掘与分析:通过分析新闻标题和文章正文,研究不同领域的新闻特征,提取关键信息或趋势。
3. 机器学习算法比较:可用于比较不同机器学习算法在新闻分类任务中的表现,支持算法优化和选择。
4. 新闻推荐系统开发:利用数据集中的新闻类别和内容特征,构建个性化新闻推荐系统。
5. 跨领域研究:结合其他数据源,探索新闻传播与社会事件、经济发展等因素之间的关系,为学术研究提供支持。
数据特点:
- 数据规模:总共800篇新闻文章,每个类别包含160篇,类别分布均衡。
- 数据格式:包含两种版本的数据:标题数据和正文数据,便于研究不同粒度的文本分析任务。
- 语言:所有新闻文章均为英文,适合开展英文文本处理和机器学习研究。
- 类别标签:包含五个明确的新闻类别标签,分别为商业、科技、政治、体育和健康,便于分类任务的开展。
应用场景:
该数据集特别适合用于以下场景:
- 学术研究:支持新闻分类算法研究、文本挖掘和机器学习模型评估。
- 行业应用:新闻推荐系统、新闻内容自动化分类、舆情分析等。
- 教育用途:作为教学案例,帮助学生理解新闻文本处理和机器学习算法的实际应用。
参考文献:
1. N. Disayiram 和 R. A. H. M. Rupasingha, “A Comparative Study of Clustering English News Articles Using Clustering Algorithms,” 2022 International Research Conference on Smart Computing and Systems Engineering (SCSE), IEEE, 2022, pp. 108-113, doi: [10.1109/SCSE56529.2022.9905210]
https://ieeexplore.ieee.org/document/9905210/)
2. N. Disayiram 和 R. A. H. M. Rupasingha, “A Comparative Study of Classifying English News Articles Using Machine Learning Algorithms,” 2022 Trends in Electrical, Electronics, Computer Engineering Conference (TEECCON), 2022, pp. 50-55, doi: [10.1109/TEECCON54414.2022.9854832]
https://ieeexplore.ieee.org/document/9854832)