马拉多纳推文数据集

马拉多纳推文数据集 数据来源:互联网公开数据
标签:推文,社交媒体分析,时间序列,文本挖掘,情感分析,事件研究,用户行为

数据概述:
本数据集收录了2020年11月26日至27日期间关于马拉多纳的推文数据,包含完整推文及其重复转推内容。数据集分为三个文件:
1. full_diego_tw.csv:包含所有采集的推文,包括转推内容,总计2,495,305条记录。
2. unique_diego_tw.csv:仅保留首次出现的推文,去重后总计439,189条记录。
3. maradonatw.txt:所有唯一推文经过清洗后合并为一个TXT文件,移除“RT”、换行符、用户名及链接等内容。

数据用途概述:
该数据集适用于社交媒体分析、文本挖掘、情感分析及用户行为研究等领域。研究者可利用此数据进行时间序列分析,研究特定事件(如马拉多纳相关话题)下的社交媒体动态;也可用于情感分析,探索用户对特定事件的态度及情绪变化。此外,数据集还可用于文本内容的清洗与预处理技术研究,为后续的自然语言处理任务提供基础数据支持。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 261.32 MiB
最后更新 2025年5月31日
创建于 2025年5月31日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。