新冠疫情推文分类机器学习数据集-gauravduttakiit
数据来源:互联网公开数据
标签:新冠疫情,推文,机器学习,情感分析,社交媒体,文本分类,自然语言处理,疫情,Twitter,公共卫生
数据概述:
本数据集包含约7000条训练集推文和约3000条测试集推文,均来自Twitter。数据集旨在用于构建一个机器学习模型,以判断推文是否与新冠疫情相关。推文已被标记为与新冠疫情相关(标签为1)或不相关(标签为0)。
为了确保数据的多样性和模型泛化能力,所有推文均已移除以下关键词:corona、coronavirus、covid、covid19、covid-19、sarscov2、19。此外,推文中的用户名和网址也已被删除,以确保匿名性。
数据用途概述:
该数据集主要用于开发机器学习模型,对Twitter推文进行新冠疫情相关性分类。此模型可用于更全面地收集与新冠疫情相关的推文数据,而不仅仅依赖于关键词,从而支持更深入的情感分析研究。研究人员和工程师可以利用此模型构建更 comprehensive 的数据集,用于分析公众对新冠疫情的看法,并为政府和非政府公共卫生组织提供信息,以改进未来的沟通和公共干预措施。