阿拉伯语新闻综合数据集-2021-ahmeddulaimi

阿拉伯语新闻综合数据集-2021-ahmeddulaimi 数据来源:互联网公开数据 标签:阿拉伯语,新闻,文本分类,自然语言处理,文化,经济,体育,政治,艺术,社会,科技,医疗,宗教

数据概述: 本数据集收录了超过193,000篇来自阿拉伯语新闻网站和报纸文章的现代阿拉伯文本,涵盖多个著名新闻来源,包括《半岛电视台》、《今日海湾》、《谷歌新闻》及其他各类平台。数据集分为两个主要文件:UltimateArabic文件包含原始阿拉伯文本,未进行任何预处理;UltimateArabicPrePros文件经过预处理,包括去除停用词、非阿拉伯语词汇、符号和数字,适用于自然语言处理任务,如文本分类。

数据集提供了四个不同版本,适用于不同的文本分类需求: 1. 原始数据版本,未经任何预处理; 2. 去除停用词和非阿拉伯语词汇的版本; 3. 应用词干提取技术的版本; 4. 经过全面预处理(包括数据清理、停用词去除和词干提取)的版本。

数据被划分为10个不同类别:文化、多元、经济、体育、政治、艺术、社会、科技、医疗和宗教。

数据用途概述: 该数据集适用于阿拉伯语自然语言处理任务,如文本分类、情感分析、主题识别等。研究人员和开发人员可以使用此数据集训练和评估机器学习模型,提高对阿拉伯语文本的理解和处理能力。此外,数据集也适用于教育和传播场景,帮助学习者熟悉阿拉伯语新闻语料库的内容和结构,促进跨文化交流和理解。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 351.84 MiB
最后更新 2025年5月31日
创建于 2025年5月31日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。