Wikicite_Multilingual_Based_多语言维基百科分类引用数据集2024

数据集概述

本数据集是从2024年2月多语言维基百科数据转储中提取的翻译引用数据集,包含德语、法语、俄语等十二种语言的分类引用信息。通过统一的提取和模板协调流程,将各语言引用模板转换为通用英文模板,并按新闻、书籍、期刊或其他类型分类,仅统计包含DOI、PMID、PMC和ISBN标识符的引用,为学术引用分析提供结构化数据支持。

文件详解

  • 文件名称:de.zip(以德语数据集为例,其他语言文件命名规则类似)
  • 文件格式:ZIP
  • 字段映射介绍:每个语言的压缩包包含该语言维基百科的分类引用数据,核心字段包括引用模板转换后的通用字段、分类标签(新闻/书籍/期刊/其他)及DOI、PMID、PMC、ISBN等标识符信息;各语言数据集还关联对应维基百科数据转储的链接、转储大小、总引用数及各类别引用数量统计。

数据来源

多语言维基百科2024年2月数据转储

适用场景

  • 学术引用模式分析:研究不同语言维基百科中引用类型(书籍/期刊/新闻)的分布特征及差异。
  • 跨语言学术影响力研究:通过多语言引用数据探索学术成果在不同语言社区的传播情况。
  • 学术资源标识符应用评估:分析DOI、PMID、PMC、ISBN等标识符在多语言维基百科引用中的覆盖度和使用规律。
  • 维基百科内容质量研究:基于分类引用数据评估不同语言维基百科条目引用的规范性和丰富度。
  • 学术数据增强工具开发:为引用标识符自动补全、引用模板标准化等工具提供训练或测试数据。
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 850.87 MiB
最后更新 2026年1月17日
创建于 2026年1月17日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。