新冠疫情推文分类机器学习数据集-gauravduttakiit

新冠疫情推文分类机器学习数据集-gauravduttakiit 数据来源:互联网公开数据 标签:新冠疫情,推文,机器学习,情感分析,社交媒体,文本分类,自然语言处理,疫情,Twitter,公共卫生

数据概述: 本数据集包含约7000条训练集推文和约3000条测试集推文,均来自Twitter。数据集旨在用于构建一个机器学习模型,以判断推文是否与新冠疫情相关。推文已被标记为与新冠疫情相关(标签为1)或不相关(标签为0)。

为了确保数据的多样性和模型泛化能力,所有推文均已移除以下关键词:corona、coronavirus、covid、covid19、covid-19、sarscov2、19。此外,推文中的用户名和网址也已被删除,以确保匿名性。

数据用途概述: 该数据集主要用于开发机器学习模型,对Twitter推文进行新冠疫情相关性分类。此模型可用于更全面地收集与新冠疫情相关的推文数据,而不仅仅依赖于关键词,从而支持更深入的情感分析研究。研究人员和工程师可以利用此模型构建更 comprehensive 的数据集,用于分析公众对新冠疫情的看法,并为政府和非政府公共卫生组织提供信息,以改进未来的沟通和公共干预措施。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 0.37 MiB
最后更新 2025年4月23日
创建于 2025年4月23日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。