-
Wikimedia_数学表达式去重列表数据
2026年2月2日 30 151 99
数据集概述 本数据集包含维基媒体所有项目(含维基百科)中使用的全部数学表达式的去重列表。数据以JSON格式存储,键为输入内容的MD5哈希值,值为从维基文本源中提取的数学表达式内容。数据集可用于数学表达式的标准化、知识图谱构建等场景,仅包含一个文件。 文件详解 文件名称:wmf_texvc_inputs.json 文件格式:JSON...
-
维基百科网站流量日度时间序列数据集_含缺失值
2026年2月1日 30 17 5
数据集概述 本数据集包含145063条时间序列数据,记录2015年7月1日至2022年6月30日期间维基百科页面的日度访问量(含缺失值)。数据基于Kaggle维基百科流量预测竞赛使用的页面范围扩展而来,文章名称中的冒号已替换为短横线以适配.tsf文件加载器,可用于网页流量趋势分析与预测研究。 文件详解...
-
Webis_Based_Wikipedia科技创新历史数据_2023
2026年1月23日 30 110 75
数据集概述 本数据集包含从2022年1月1日维基媒体数据转储中提取的维基百科科学和技术类文章的历史部分,通过维基百科分类网络检索文章,结合基于章节标题的启发式方法和分类器提取历史章节,形成一个JSON文件。 文件详解 文件名称:webis-WikiSciTech-23.json 文件格式:JSON...
-
Wikimedia_Snapshot_维基媒体链接到英国存储库数据_2019_12_08
2026年1月13日 30 127 106
数据集概述 本数据集是2019年12月8日维基百科链接到英国存储库的快照,涵盖机构开放获取和数据存储库,以及非机构和主题特定存储库(如figshare、zenodo、datadryad)。罗素集团高校存储库数据完整,其他存储库数据通过UKCoRR邮件列表部分众包,支持未来迭代更新。 文件详解...
-
LaTeX_English_Wikipedia_英文维基百科LaTeX公式数据_20241123
2026年1月8日 30 142 66
数据集概述 本数据集为英文维基百科中使用的LaTeX(texvc)输入的公开转储,包含2024年11月23日的标准化输出结果。数据以JSON格式存储,涵盖英文维基百科中的LaTeX公式内容及相关标准化处理数据,共包含2个文件。 文件详解 文件名称:en-wiki-formulae-good.json 文件格式:JSON...
-
维基媒体与开放科学_法国维基媒体用户调查数据集2025
2025年12月7日 30 152 17
数据集概述 本数据集包含对法国维基媒体用户开展的开放科学相关调查结果分析,围绕用户的文献实践与开放科学认知展开,旨在促进高等教育研究与维基媒体运动的联系。 文件详解 文件名称:données.csv 文件格式:CSV 字段示例:Séquentiel(序号)、Heure de soumission(提交时间)、1. Avez-vous déjà...
-
塞尔维亚19世纪墓碑三维模型与图片数据集_Vojinov_krajputas
2025年12月4日 30 142 128
数据集概述 该数据集包含19世纪塞尔维亚Vojinov krajputas墓碑的三维模型与图片资料。墓碑位于戈尔尼亚米兰诺瓦茨附近的博格达尼察村,数据基于维基媒体2019年8月拍摄的照片处理而成,涵盖墓碑的三维模型文件及多角度预览图片。 文件详解 三维模型文件:...
-
维基媒体语言类别名称数据集WikimediaNamesbyLanguageCategoriesDataset-jamesxiwoolley
2025年4月25日 30 95 88
维基媒体语言类别名称数据集WikimediaNamesbyLanguageCategoriesDataset-jamesxiwoolley 数据来源:互联网公开数据 标签:维基媒体,语言类别,名称数据,数据集,文本分析,自然语言处理,多语言支持,文化研究 数据概述: 该数据集包含来自维基媒体的数据,记录了不同语言类别下的名称信息。主要特征如下:...
-
加那利群岛文化遗产知识库数据集-ivanhercaz
2025年4月22日 30 136 45
加那利群岛文化遗产知识库数据集-ivanhercaz 数据来源:互联网公开数据 标签:文化遗产,加那利群岛,维基数据,维基媒体,知识库,开放数据,文化研究,西班牙语 数据概述: 本数据集包含关于加那利群岛文化遗产在维基媒体项目中的知识数据,具体包括来自维基数据(Wikidata)、维基百科西班牙语版(eswiki)和维基共享资源(Wikimedia...



