ChatGPT-GPT3-GPT4相关推文每日采集数据集-2023年4月3日-2023年5月13日

ChatGPT-GPT3-GPT4相关推文每日采集数据集-2023年4月3日-2023年5月13日 数据来源:互联网公开数据 标签:推文,社交媒体,Twitter,ChatGPT,GPT3,GPT4,自然语言处理,情感分析,数据分析,文本数据

数据概述: 本数据集包含了2023年4月3日至2023年5月13日期间,每日从Twitter(现X)采集的1000条包含关键词“ChatGPT”、“GPT3”或“GPT4”的推文。数据采集自不同语言,并经过初步筛选,以过滤掉敏感内容和垃圾信息。由于Twitter API的费用调整,该数据集的更新已于2023年5月13日停止。

数据字段包括:

tweet_id:整数,每条推文的唯一标识符,旧推文的ID较小。 tweet_created:时间戳,推文创建时间。 tweet_extracted:时间戳,ETL管道提取推文及其元数据(点赞数、转发数等)的UTC时间。 text:字符串,推文的原始文本内容。 lang:字符串,推文文本的语言代码。 user_id:整数,Twitter用户的唯一标识符。 user_name:字符串,推文作者的公开姓名。 user_username:字符串,推文作者的Twitter用户名(@example)。 user_location:字符串,推文作者的公开位置。 user_description:字符串,推文作者的公开个人简介。 user_created:时间戳,用户Twitter账号的创建时间。 user_followers_count:整数,推文提取时作者账号的关注者数量。 user_following_count:整数,推文提取时作者账号的关注数量。 user_tweet_count:整数,推文提取时作者已发布的推文数量。 user_verified:布尔值,如果用户已通过验证(蓝标),则为True。 source:字符串,用于发布推文的设备/应用程序(目前该字段无效,所有值为NaN)。 retweet_count:整数,推文提取时推文的转发数量。 like_count:整数,推文提取时推文的点赞数量。 reply_count:整数,推文的回复消息数量。 impression_count:整数,推文提取时推文的展示次数。

数据用途概述: 该数据集适用于多种数据分析和可视化应用,以及自然语言处理(NLP)情感分析等技术。研究人员可以利用此数据分析公众对ChatGPT、GPT3和GPT4等人工智能技术的讨论和观点,进行情感趋势分析、话题热度分析等。同时,该数据集也为研究社交媒体上的信息传播、用户行为提供了基础数据。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 9.41 MiB
最后更新 2025年4月15日
创建于 2025年4月15日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。