土耳其新闻文本数据集

土耳其新闻文本数据集 数据来源:互联网公开数据
标签:土耳其新闻,文本分析,新闻分类,文化,艺术,经济,世界新闻,汽车,体育,技术,杂志

数据概述:
本数据集收录了2248篇内容相近的新闻文本,涵盖了多个新闻类别。数据集按类别整理了新闻数量及平均每篇新闻的字数(见表1)。每篇新闻平均包含1586个字。其中,文化与艺术类别的新闻最长,杂志类别的新闻最短,这主要是因为杂志新闻主要以照片为主。

表1. 按类别分类的新闻数量及平均字数
类别 总新闻数 平均字数
生活 292 1018
世界 249 1450
经济 261 2127
文化与艺术 183 3140
杂志 315 606
汽车 303 2056
体育 315 1409
技术 330 1573
总计/平均 2248 1586

数据用途概述:
该数据集适用于新闻文本分析、新闻分类、主题建模等多种应用场景。研究人员可以利用本数据集进行文本分类研究,如使用朴素贝叶斯算法对新闻进行主题分类。此外,数据集还可以用于自然语言处理技术的训练与评估,帮助提高机器学习模型的性能。政策制定者和媒体机构也可借助数据分析结果,更好地理解公众关注热点及新闻传播规律。

使用本数据集时,请引用以下文章:
Aydemir, E., Işık, M., Tuncer, T. (2021). Classification of Turkish News Texts with Multinomial Naive Bayes Algorithm, Fırat University Journal of Engineering Science

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 1.53 MiB
最后更新 2025年4月14日
创建于 2025年4月14日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。