机器学习奥林匹克竞赛-葡萄牙语有毒语言检测扩展数据集
数据来源:互联网公开数据
标签:机器学习,自然语言处理,文本分类,有毒语言,葡萄牙语,社交媒体,情感分析,文本清洗
数据概述:
本数据集是对机器学习奥林匹克竞赛中葡萄牙语有毒语言检测数据集的扩展版本。原始数据集包含社交媒体上的文本,并标注了有毒性标签。扩展数据集在原始数据的基础上增加了多个文本处理和特征工程字段,旨在为研究人员提供更全面的数据资源,以探索和改进有毒语言检测模型。
数据集包含以下字段:
text:原始文本。
text_no_emoticon:从文本中移除表情符号后的文本。
label:原始竞赛标注的标签,指示文本是否有毒。
norm_text:使用 enelvo 库对原始文本进行规范化处理,尝试修复缩写等。
norm_text_clean:与 norm_text 相同,但移除了 "@user" 和 "rt" 标签。
HAVE_EMOTICON:指示文本是否包含表情符号的标志。
EMOTICON_LIST:如果 HAVE_EMOTICON 为 True,则列出找到的表情符号。
TOTAL_EMOTICON:表情符号的总计数。
INDIVUDUAL_EMOTICON_COUNT:统计不同表情符号的字典。
HAVE_@USER:指示文本是否包含 "@user" 标签的标志。
@USER_COUNT:"@user" 标签的计数。
HAVE_rt:指示文本是否包含 "rt" 标签的标志。
text_treat:对原始文本进行一些清理后的文本。
words:使用 split 方法分割出的单词列表。
words_noStop:移除了 nltk 停用词后的单词列表。
len_by_words_noStop:没有停用词的单词计数。
数据用途概述:
该数据集可用于多种研究和应用场景,包括:
有毒语言检测模型的开发和评估:研究人员可以使用该数据集训练和测试各种机器学习模型,以识别葡萄牙语文本中的有毒内容。
文本预处理方法的研究:数据集中的不同文本处理字段可以用于比较和评估不同的文本清洗和规范化方法的效果。
特征工程的探索:研究人员可以利用数据集中的各种特征(例如表情符号、"@user" 标签、停用词等)来构建更有效的特征,以提高模型的性能。
情感分析:数据集可以用于情感分析研究,例如识别文本中的情绪倾向。
自然语言处理教学:该数据集可以用于自然语言处理课程的教学,帮助学生理解文本处理、特征工程和模型构建等概念。