印尼语仇恨言论词汇与停用词数据集IndonesianHateSpeechLexiconandStopwordsDataset-tarishamazaya

印尼语仇恨言论词汇与停用词数据集IndonesianHateSpeechLexiconandStopwordsDataset-tarishamazaya

数据来源:互联网公开数据

标签:仇恨言论, 文本分析, 情感分析, 词汇表, 停用词, 自然语言处理, 语料库, 印尼语

数据概述: 该数据集包含来自互联网的印尼语仇恨言论词汇表和停用词列表,旨在支持印尼语文本分析、情感分析和仇恨言论检测等任务。主要特征如下: 时间跨度:数据未明确时间戳,可视为静态词汇表。 地理范围:数据主要针对印尼语语境下的仇恨言论与常用停用词。 数据维度:数据集包含两个主要部分: 仇恨言论词汇表(abusive.csv):列出被认为具有冒犯性或仇恨性质的印尼语词汇。 停用词列表(stopwordbahasa.csv):收录印尼语中常见的停用词,用于文本预处理。 数据格式:数据以CSV格式提供,包含“ABUSIVE”列(仇恨词汇)和“ada”列(停用词)。 来源信息:数据来源于互联网,可能经过整理和标注。该数据集主要用于印尼语文本的预处理、情感分析和仇恨言论检测。

数据用途概述: 该数据集具有广泛的应用潜力,特别适用于以下场景: 研究与分析:适用于印尼语文本情感分析、仇恨言论识别、文本分类等研究。 行业应用:可应用于社交媒体内容审核、舆情监测、客户反馈分析等领域,有助于过滤和识别有害内容。 决策支持:支持企业和组织在印尼语社交媒体上的风险管理和品牌声誉维护。 教育和培训:作为自然语言处理、文本挖掘等课程的实践案例,帮助学生理解印尼语文本处理的流程。 此数据集特别适合用于构建印尼语文本分析模型,提高对仇恨言论的检测能力,并优化文本处理流程。

packageimg

数据与资源

附加信息

字段
版本 1.0
最后更新 五月 1, 2025, 16:12 (UTC)
创建于 五月 1, 2025, 16:12 (UTC)
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。