数据集概述
本数据集为虚假作者归属研究的方法与材料数据包,包含Python、shell、awk脚本及相关数据,用于生成研究论文的整理表格和摘录内容。数据集整合了文献元数据、PDF文件、Crossref查询结果、ChatGPT交互记录等,支持学术研究中虚假作者归属相关的分析与验证工作。
文件详解
- 数据文件
- 文件名称:article-details.xlsx
- 文件格式:XLSX
- 字段映射介绍:包含已发表文章详情的整理表格
- 文件名称:index.html
- 文件格式:HTML
- 字段映射介绍:含互联网档案馆保存的GIJIR材料链接、GIJIR文章引用数据列表及相关链接
- 文件名称:ybs-works.json
- 文件格式:JSON
- 字段映射介绍:2024年9月22日Crossref查询获取的出版商作品结果
- 文件名称:ChatGPT(目录)
- 内容介绍:包含生成某期刊主题虚假文章的提示词与响应记录
- 文件名称:global-us/metadata/(目录)
- 内容介绍:2024年9月10日收集的文章元数据HTML文件
- 文件名称:global-us/global-us.mellbaou.com/index.php/global/article/download/(目录)
- 内容介绍:2024年9月10日抓取的期刊文章PDF副本
- 文件名称:spinellis business - Google Scholar.pdf
- 文件格式:PDF
- 内容介绍:2025年2月6日“spinellis business”谷歌搜索查询打印件
- 可执行文件
- 文件名称:Makefile
- 内容介绍:编排文章分析流程的命令集合
- 文件名称:get-metadata.sh
- 内容介绍:从期刊网站获取文章元数据页面的shell脚本
- 文件名称:apply-to-pdfs.sh
- 内容介绍:将指定Python脚本应用于所有文章PDF的shell脚本
- 文件名称:extract-citations-emails.py
- 内容介绍:从文章PDF提取可能的文本内引用数量及通讯作者邮箱的Python脚本
- 文件名称:extract-doi-affiliations.py
- 内容介绍:从文章元数据提取DOI和机构信息的Python脚本
- 文件名称:extract-all-doi-affiliations.sh
- 内容介绍:从所有文章元数据提取DOI和机构信息的shell脚本
- 文件名称:emails-to-csv.awk
- 内容介绍:将邮箱和文章编号转换为带邮件发送URL的CSV格式的awk脚本
- 压缩包
- 文件名称:replication.zip
- 文件格式:ZIP
- 内容介绍:包含上述所有数据文件与可执行文件的压缩包
适用场景
- 学术诚信研究:用于分析虚假作者归属现象的方法验证与案例研究
- 文献元数据分析:通过文章元数据、引用信息探究作者归属的真实性
- 学术文本处理:利用脚本工具提取PDF文献中的DOI、机构、邮箱等关键信息
- 学术出版合规性检测:辅助识别学术文章中可能存在的虚假作者归属问题
- 研究方法复现:支持相关学术研究中方法与分析流程的复现验证