数据集概述
本数据集围绕Twitter与Facebook平台的数据挖掘及情感分析主题构建,包含从Google Scholar获取的相关学术文献元数据,涵盖文献标题、作者、发表年份、被引次数等核心信息,为该领域研究提供文献基础数据。
文件详解
- 数据集核心文件:
- data_mining_sentiment_analysis_Twitter_Facebook.csv: CSV格式文件,包含学术文献的关键属性,如titles(PDF标题)、authors(作者)、years(发表年份)、ncitedby(被引次数)、linkfiles(PDF链接)及相关元数据。
- 数据采集代码文件:
- scrapping.R: R语言格式文件,用于从Google Scholar采集数据的代码脚本。
- 文档与说明文件:
- README.md: Markdown格式文件,包含项目概述、作者信息及数据采集说明。
- LICENSE: 无扩展名文件,数据集授权许可文件。
- index.html: HTML格式文件,可能为数据集网页说明文档。
- structuration.txt: TXT格式文件,记录数据集的目录结构规划。
- expressions régulières - data curation.txt: TXT格式文件,数据清洗所用的正则表达式规则说明。
数据来源
Google Scholar
适用场景
- 文献计量分析: 统计Twitter与Facebook数据挖掘及情感分析领域的文献发表趋势、核心作者及高影响力研究。
- 研究热点追踪: 基于文献标题和关键词分析该领域的研究热点与演进方向。
- 数据采集方法参考: 为学术文献元数据采集提供基于R语言的Google Scholar爬虫实现案例。
- 数据清洗技术研究: 分析正则表达式在文献元数据清洗中的应用方法。