斯里兰卡AdaDerana新闻网站僧伽罗语新闻文章数据集2008-2024-tharindumadhusanka9
数据来源:互联网公开数据
标签:新闻文章,僧伽罗语,Ada Derana,斯里兰卡,NLP,自然语言处理,时间序列,文本分析,社会研究,媒体,2008-2024
数据概述:
本数据集是一个全面的新闻文章集合,来源于斯里兰卡Ada Derana新闻网站的僧伽罗语新闻文章,时间跨度从2008年至2024年。 数据集包含了超过20万篇文章,为机器学习和非机器学习领域提供了丰富的资源。
数据集字段:
ID: 每篇新闻文章的唯一标识符。
Title: 新闻文章的标题。
Description: 新闻文章的全文。
Date: 新闻文章的发布日期。
URL: 与新闻文章相关的图像的URL。
数据用途概述:
该数据集适用于多种应用场景,包括:
自然语言处理(NLP):
情感分析
主题建模
命名实体识别
语言翻译
文本摘要
机器学习:
嵌入生成
新闻分类
虚假新闻检测
非机器学习应用:
历史分析
媒体研究
社会政治研究
此外,该数据集提供了斯里兰卡新闻历史的详细视图,捕捉了重要时期内的社会政治和文化叙事。 数据以用户友好的格式构建,易于解析和分析。 这是一个宝贵的资源,可供研究人员、数据科学家以及对斯里兰卡新闻媒体发展感兴趣的人使用。 它提供了对该国过去事件、公众情绪和媒体趋势的见解,为分析和应用提供了广泛的可能性。