推特多任务分类基准数据集-2011至2021年-thedevastator
数据来源:互联网公开数据
标签:推特,情感分析,讽刺检测,仇恨言论,冒犯性言论,立场检测,表情符号,情绪识别,基准数据集
数据概述:
本数据集包含推特上的七项异构任务,均被框架化为多分类推文分类问题。这些任务包括讽刺、仇恨言论、冒犯性言论、立场检测、表情符号使用、情绪识别和情感分析。所有任务统一在一个基准中,每个数据集格式一致,包含固定的训练、验证和测试数据集分割。
数据用途概述:
该数据集适用于多种研究和分析场景,包括推文情感分析、立场检测、讽刺言论识别等。研究人员可以利用此数据集进行自然语言处理和机器学习模型的开发和评估;教育者可以将其用于教学演示和实践;企业可以利用该数据集进行市场情绪分析、客户反馈处理等。此外,数据集还适合用于评估和改进社交媒体平台的内容审核机制。
数据集包含以下文件,每个文件包含两列:text(推文文本)和label(推文标签)。标签的具体含义根据任务不同而变化:
- emoji_test.csv:表情符号使用测试集
- emotion_test.csv:情绪识别测试集
- stance_abortion_test.csv:关于堕胎立场的立场检测测试集
- stance_hillary_test.csv:关于希拉里立场的立场检测测试集
- sentiment_test.csv:情感分析测试集
- hate_train.csv:仇恨言论训练集
- stance_hillary_validation.csv:关于希拉里立场的立场检测验证集
- sentiment_train.csv:情感分析训练集
- stance_climate_validation.csv:关于气候变化立场的立场检测验证集
- stance_climate_train.csv:关于气候变化立场的立场检测训练集
- irony_validation.csv:讽刺检测验证集
- stance_feminist_validation.csv:关于女权立场的立场检测验证集
- sentiment_validation.csv:情感分析验证集
- stance_atheism_test.csv:关于无神论立场的立场检测测试集
- stance_atheism_validation.csv:关于无神论立场的立场检测验证集
- stance_climate_test.csv:关于气候变化立场的立场检测测试集
- emotion_validation.csv:情绪识别验证集
- irony_test.csv:讽刺检测测试集
- stance_feminist_train.csv:关于女权立场的立场检测训练集
- offensive_validation.csv:冒犯性言论验证集
- stance_abortion_train.csv:关于堕胎立场的立场检测训练集
- stance_hillary_train.csv:关于希拉里立场的立场检测训练集
- stance_feminist_test.csv:关于女权立场的立场检测测试集
- irony_train.csv:讽刺检测训练集
- emoji_train.csv:表情符号使用训练集
- offensive_test.csv:冒犯性言论测试集
- offensive_train.csv:冒犯性言论训练集
- hate_validation.csv:仇恨言论验证集
- hate_test.csv:仇恨言论测试集
- stance_atheism_train.csv:关于无神论立场的立场检测训练集
- stance_abortion_validation.csv:关于堕胎立场的立场检测验证集
- emoji_validation.csv:表情符号使用验证集
- emotion_train.csv:情绪识别训练集
数据集无版权,遵循CC0 1.0 Universal(CC0 1.0)公共领域声明。用户可以自由复制、修改、分发和表演该作品,包括商业用途,无需获得许可。