数据集概述
本数据集包含人文领域撤稿文章的引用分析数据,包括引用实体特征、引用上下文及摘要、排除的低相关性撤稿文章列表,以及基于摘要和引用上下文的主题建模结果,支持对人文领域撤稿文章引用模式的定量与定性研究。
文件详解
- 压缩包文件:
- 文件名称:data.zip
- 文件格式:ZIP
- 内容说明:包含所有数据集文件和目录的压缩包,需解压后访问内部内容
- 核心数据集(解压后data/目录下):
- cits.csv:CSV格式,记录所有引用人文领域撤稿文章的实体及特征列,采用CC0许可
- content.csv:CSV格式,包含引用实体的摘要和文本内引用上下文,保留原出版商许可
- excluded_hum_retractions.csv:CSV格式,列出12篇人文亲和力得分<2的排除撤稿文章
- 主题建模结果(解压后topic_model/目录下):
- abstract/目录:含摘要的主题建模结果,包含datasets_and_views/(MITAO生成的数据集与可视化)、ldamodel_corpus_dict/(词典、LDA模型、语料)、rawdata/(文本集合、元数据、停用词)
- cits_context/目录:含引用上下文的主题建模结果,结构同abstract/目录
- workflow/目录:存放MITAO工具使用的工作流文件
数据来源
论文“A quantitative and qualitative citation analysis to retracted articles in the humanities domain”
适用场景
- 人文领域撤稿文献计量研究:分析撤稿文章的引用实体特征、引用频率与模式
- 学术引用行为分析:通过引用上下文与摘要,探究人文领域学者对撤稿文章的引用动机与语境
- 主题建模应用验证:测试MITAO工具在人文文本主题提取中的效果与准确性
- 学术出版规范研究:识别低相关性撤稿文章的筛选标准,为学术文献质量控制提供参考