新闻文章情感分析数据集NewsArticleSentimentAnalysis-shuhaib111

新闻文章情感分析数据集NewsArticleSentimentAnalysis-shuhaib111

数据来源:互联网公开数据

标签:新闻文章, 情感分析, 文本挖掘, 自然语言处理, 舆情分析, 情感词典, 机器学习, 数据集

数据概述: 该数据集包含来自新闻网站的文章数据,记录了文章的各种属性,并附带了情感分析的相关指标。主要特征如下: 时间跨度:数据未明确标明具体时间范围,但根据爬取时间(crawled)推测为2017年左右的新闻文章。 地理范围:数据来源于全球新闻网站,但具体文章的地域分布有待进一步分析。 数据维度:数据集包括“author”(作者)、“comments”(评论数)、“country”(国家)、“crawled”(爬取时间)、“domain_rank”(域名排名)、“id”(文章ID)、“language”(语言)、“likes”(点赞数)、“main_img_url”(主要图片链接)、“ord_in_thread”(在线程中的顺序)、“participants_count”(参与者数量)、“published”(发布时间)、“replies_count”(回复数)、“shares”(分享数)、“site_url”(网站链接)、“spam_score”(垃圾邮件评分)、“text”(文章正文)、“thread_title”(主题标题)、“title”(文章标题)、“type”(文章类型)、“uuid”(唯一标识符)、“caps_title”(标题大写程度)、“caps_thread”(主题大写程度)、“caps_text”(正文大写程度)、“title_len”(标题长度)、“thread_len”(主题长度)、“text_len”(正文长度)、“excl_title”(标题排除词)、“excl_thread”(主题排除词)、“excl_text”(正文排除词)、“first_title”(标题首词)、“first_thread”(主题首词)、“first_text”(正文首词)、“second_title”(标题次词)、“second_thread”(主题次词)、“second_text”(正文次词)、“third_title”(标题三词)、“third_thread”(主题三词)、“third_text”(正文三词)、以及文章的情感分析结果,如“anger”(愤怒)、“anticipation”(期待)、“disgust”(厌恶)、“fear”(恐惧)、“joy”(喜悦)、“sadness”(悲伤)、“surprise”(惊讶)、“trust”(信任)、“negative”(负面情绪)、“positive”(正面情绪)、“first_all”、“second_all”、“third_all”等情感指标。 数据格式:CSV格式,文件名为all_data (1).csv,便于数据分析与处理。 数据来源:数据来源于新闻网站抓取,已进行初步的数据清洗和情感分析。 该数据集适合用于情感分析、文本挖掘、舆情分析等领域的研究。

数据用途概述: 该数据集具有广泛的应用潜力,特别适用于以下场景: 研究与分析:适用于自然语言处理、文本挖掘和情感分析领域的学术研究,例如情感识别模型构建、情绪传播分析、观点挖掘等。 行业应用:为媒体行业、市场调研机构、社交媒体分析平台提供数据支持,尤其是在舆情监控、品牌声誉管理、市场趋势预测等方面。 决策支持:支持企业和政府部门进行决策分析,例如评估公众对特定事件或产品的看法、监控社会情绪变化等。 教育和培训:作为自然语言处理、数据科学等相关课程的案例分析数据,帮助学生理解情感分析、文本挖掘等技术。 此数据集特别适合用于探索新闻文章的情感表达规律,分析不同新闻事件对公众情绪的影响,并支持构建更准确的情感分析模型。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 34.71 MiB
最后更新 2025年5月12日
创建于 2025年5月12日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。