印尼语情感分析词典与推文数据集IndonesianSentimentAnalysisLexiconandTweetDataset-atthoriq
数据来源:互联网公开数据
标签:情感分析, 印尼语, 文本挖掘, 情感词典, 社交媒体, 推文分析, 自然语言处理, 机器学习
数据概述:
该数据集包含用于印尼语情感分析的词典和推文数据,旨在支持印尼语文本的情感极性分析研究与应用。主要特征如下:
时间跨度:推文数据的时间范围为2017年4月,词典数据未标明具体时间,可视为静态资源。
地理范围:数据集主要关注印尼语文本,推文数据可能来源于印尼社交媒体用户。
数据维度:数据集包括两个主要组成部分:
情感词典(key_norm.csv):包含印尼语单词的缩写形式及其对应的标准形式,以及情感极性标注结果。
推文数据集(data_latih.json):包含来自社交媒体的推文内容、情感标签、发布时间、用户ID等信息。
数据格式:数据以CSV和JSON格式提供,方便数据处理和分析。CSV文件名为key_norm.csv和dictionary.csv,JSON文件名为data_latih.json。
来源信息:数据来源于公开的网络资源,包括情感词典和社交媒体推文。
数据用途概述:
该数据集具有广泛的应用潜力,特别适用于以下场景:
研究与分析:适用于印尼语情感分析、文本分类、情感词典构建等研究,以及社交媒体数据分析。
行业应用:可用于构建印尼语社交媒体监控系统、舆情分析系统,以及情感分析相关的产品和服务。
决策支持:支持企业和政府机构了解公众对产品、服务或政策的情感态度,辅助决策制定。
教育和培训:作为自然语言处理、文本挖掘、情感分析等课程的教学素材和实训数据。
此数据集特别适合用于探索印尼语文本的情感表达方式,构建印尼语情感分析模型,以及分析社交媒体上的情感趋势。