社交媒体成瘾相关文本特征分析数据集SocialMediaAddictionTextFeatureAnalysis-anandpanda3
数据来源:互联网公开数据
标签:社交媒体, 成瘾行为, 文本分析, 情感分析, 机器学习, LIWC, TF-IDF, 精神健康, Reddit
数据概述:
该数据集包含来自Reddit平台的数据,记录了用户在特定subreddit(子版块)中发布的内容,并结合了多种文本特征,用于分析社交媒体成瘾相关的语言模式和情感表达。主要特征如下:
时间跨度:数据记录年份为2018年。
地理范围:数据来源于Reddit平台,用户地理位置信息不明确,但主要为英语用户发布内容。
数据维度:数据集包括多个维度的数据,涵盖了文本的多个方面:
基本信息:subreddit(帖子所属的子版块)、author(作者)、date(发布日期)、post(帖子内容)。
可读性指标:包括自动化可读性指数(ARI)、Coleman-Liau指数等。
情感分析:包括正面、负面、中性情感得分,以及复合情感得分。
心理语言学特征:使用LIWC(Linguistic Inquiry and Word Count)分析工具提取的语言特征,涵盖了多个类别,如第一人称、第二人称、情感过程等。
TF-IDF特征:使用TF-IDF(Term Frequency-Inverse Document Frequency)方法提取的关键词特征,反映了文本中单词的重要性。
数据格式:CSV格式,文件名为addiction_2018_features_tfidf_256.csv,便于数据分析和处理。
来源信息:数据来源于Reddit平台,经过了文本清洗、特征提取等处理。
该数据集适合用于研究社交媒体使用与成瘾行为之间的关系,以及基于文本特征的成瘾行为预测。
数据用途概述:
该数据集具有广泛的应用潜力,特别适用于以下场景:
研究与分析:适用于心理学、社会学、传播学等领域的学术研究,例如分析社交媒体使用与心理健康的关系、探索语言特征与成瘾行为之间的关联。
行业应用:可为社交媒体平台、心理健康App等提供数据支持,用于用户行为分析、风险评估、内容推荐优化等。
决策支持:支持心理健康领域的决策制定,帮助制定针对社交媒体成瘾的干预措施和预防策略。
教育和培训:作为文本分析、机器学习、心理学等课程的辅助材料,帮助学生和研究人员深入理解文本数据分析方法在心理健康领域的应用。
此数据集特别适合用于探索社交媒体使用与用户心理状态之间的关系,例如识别与成瘾相关的语言模式、预测用户成瘾风险,并为相关领域的研究和应用提供数据支持。