印度尼西亚新闻社交媒体文本数据集IndonesiaNewsSocialMediaText-iannarsa
数据来源:互联网公开数据
标签:社交媒体, 文本分析, 新闻内容, 舆情分析, 情感分析, 印度尼西亚, 语言处理, 传播分析
数据概述:
该数据集包含来自印度尼西亚多个新闻媒体在社交媒体平台上的文本数据,记录了新闻报道在社交媒体上的传播情况和用户互动。主要特征如下:
时间跨度:数据记录的时间范围,从创建时间(created_at)字段可以推断出具体时间。
地理范围:数据主要来源于印度尼西亚的新闻媒体,聚焦于印度尼西亚地区。
数据维度:数据集包括id, conversation_id, created_at, date, time, timezone, user_id, username, name, place, tweet, language, mentions, urls, photos, replies_count, retweets_count, likes_count, hashtags, cashtags, link, retweet, quote_url, video, thumbnail, near, geo, source, user_rt_id, user_rt, retweet_id, reply_to, retweet_date, translate, trans_src, trans_dest等多个字段,涵盖了文本内容、发布时间、用户属性、互动数据等。
数据格式:CSV格式,包含CNNIndonesia.csv, detikcom.csv, idntimes.csv, kompascom.csv, kumparan.csv, liputan6dotcom.csv, okezonenews.csv等7个文件,分别对应不同的新闻媒体。数据已进行结构化处理,方便分析。
该数据集适合用于文本挖掘、社交媒体分析和舆情监测等研究。
数据用途概述:
该数据集具有广泛的应用潜力,特别适用于以下场景:
研究与分析:适用于新闻传播、舆情分析和情感分析等领域的学术研究,如新闻内容传播规律研究、用户互动行为分析等。
行业应用:可以为媒体行业和市场研究机构提供数据支持,特别是在舆情监测、市场趋势分析、广告效果评估等方面。
决策支持:支持政府机构和企业进行社会舆情监测、风险预警和营销策略制定。
教育和培训:作为数据分析、文本挖掘、社交媒体分析等相关课程的实训数据。
此数据集特别适合用于探索新闻内容在社交媒体上的传播模式,用户的情感反馈,以及不同新闻媒体的影响力,帮助用户实现舆情监测、市场分析和传播策略优化等目标。