数据集

新闻文章情感分析数据集NewsArticleSentimentAnalysis-shuhaib111

数据来源：互联网公开数据

标签：新闻文章, 情感分析, 文本挖掘, 自然语言处理, 舆情分析, 情感词典, 机器学习, 数据集

数据概述：该数据集包含来自新闻网站的文章数据，记录了文章的各种属性，并附带了情感分析的相关指标。主要特征如下：时间跨度：数据未明确标明具体时间范围，但根据爬取时间（crawled）推测为2017年左右的新闻文章。地理范围：数据来源于全球新闻网站，但具体文章的地域分布有待进一步分析。数据维度：数据集包括“author”（作者）、“comments”（评论数）、“country”（国家）、“crawled”（爬取时间）、“domain_rank”（域名排名）、“id”（文章ID）、“language”（语言）、“likes”（点赞数）、“main_img_url”（主要图片链接）、“ord_in_thread”（在线程中的顺序）、“participants_count”（参与者数量）、“published”（发布时间）、“replies_count”（回复数）、“shares”（分享数）、“site_url”（网站链接）、“spam_score”（垃圾邮件评分）、“text”（文章正文）、“thread_title”（主题标题）、“title”（文章标题）、“type”（文章类型）、“uuid”（唯一标识符）、“caps_title”（标题大写程度）、“caps_thread”（主题大写程度）、“caps_text”（正文大写程度）、“title_len”（标题长度）、“thread_len”（主题长度）、“text_len”（正文长度）、“excl_title”（标题排除词）、“excl_thread”（主题排除词）、“excl_text”（正文排除词）、“first_title”（标题首词）、“first_thread”（主题首词）、“first_text”（正文首词）、“second_title”（标题次词）、“second_thread”（主题次词）、“second_text”（正文次词）、“third_title”（标题三词）、“third_thread”（主题三词）、“third_text”（正文三词）、以及文章的情感分析结果，如“anger”（愤怒）、“anticipation”（期待）、“disgust”（厌恶）、“fear”（恐惧）、“joy”（喜悦）、“sadness”（悲伤）、“surprise”（惊讶）、“trust”（信任）、“negative”（负面情绪）、“positive”（正面情绪）、“first_all”、“second_all”、“third_all”等情感指标。数据格式：CSV格式，文件名为all_data (1).csv，便于数据分析与处理。数据来源：数据来源于新闻网站抓取，已进行初步的数据清洗和情感分析。该数据集适合用于情感分析、文本挖掘、舆情分析等领域的研究。

数据用途概述：该数据集具有广泛的应用潜力，特别适用于以下场景：研究与分析：适用于自然语言处理、文本挖掘和情感分析领域的学术研究，例如情感识别模型构建、情绪传播分析、观点挖掘等。行业应用：为媒体行业、市场调研机构、社交媒体分析平台提供数据支持，尤其是在舆情监控、品牌声誉管理、市场趋势预测等方面。决策支持：支持企业和政府部门进行决策分析，例如评估公众对特定事件或产品的看法、监控社会情绪变化等。教育和培训：作为自然语言处理、数据科学等相关课程的案例分析数据，帮助学生理解情感分析、文本挖掘等技术。此数据集特别适合用于探索新闻文章的情感表达规律，分析不同新闻事件对公众情绪的影响，并支持构建更准确的情感分析模型。

数据与资源

新闻文章情感分析数据集NewsArticleSentimentAnalysis-shuhaib111.zipZIP
34.71 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	34.71 MiB
最后更新	2025年5月12日
创建于	2025年5月12日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

新闻文章情感分析数据集NewsArticleSentimentAnalysis-shuhaib111

数据与资源

附加信息

注册成功！