数据集概述
本数据集是《撤回文章的定性定量引用分析:案例研究》方法论应用的成果,包含数据收集阶段的引用实体特征与文本数据集,以及基于引用摘要和上下文的主题建模结果,为撤回文章引用行为研究提供支持。
文件详解
数据集包含一个压缩文件及解压后的子文件,具体说明如下:
- 主压缩文件:
- method_data.zip: ZIP格式压缩包,包含所有方法论数据。
- 数据收集文件(位于data/目录下):
- cits_features.csv: CSV格式,涵盖引用实体的DOI、发表年份、标题、期刊、是否撤回等特征,以及引用位置、意图、情感和撤回提及标记等字段。
- cits_text.csv: CSV格式,存储引用实体的摘要、引用上下文文本,DOI为关联键。
- 主题建模文件(位于topic_modeling/目录下):
- abstracts/与intext_cit/子目录(分别对应摘要和引用上下文的分析结果):
- mitao_workflows/: 包含MITAO工具的JSON格式工作流文件。
- corpus_and_dictionary/: 包含LDA主题建模的字典与向量化语料。
- coherence/coherence.csv: CSV格式,记录1-40个主题模型的一致性得分。
- datasets_and_views/: 包含MITAO生成的数据集与可视化结果。
适用场景
- 撤回文献影响力研究: 分析撤回文章被引用的特征、意图与情感倾向。
- 学术不端后果评估: 探究撤回文章在后续研究中的传播路径与引用行为。
- 文本挖掘方法验证: 复现基于摘要和引用上下文的主题建模分析流程。
- 学术引用网络分析: 构建撤回文章的引用实体网络,研究学科分布与时间趋势。