Wikimedia_数学表达式去重列表数据

数据集概述

本数据集包含维基媒体所有项目(含维基百科)中使用的全部数学表达式的去重列表。数据以JSON格式存储,键为输入内容的MD5哈希值,值为从维基文本源中提取的数学表达式内容。数据集可用于数学表达式的标准化、知识图谱构建等场景,仅包含一个文件。

文件详解

  • 文件名称:wmf_texvc_inputs.json
  • 文件格式:JSON
  • 字段映射介绍:文件为键值对结构,键是数学表达式的MD5哈希值,值是从维基文本中提取的原始数学表达式内容(如"281a70c20b16a38d7781189936e1ac9f": "E = mc^2")。

适用场景

  • 数学知识图谱构建: 利用标准化的数学表达式数据,构建数学领域的知识图谱,关联相关概念与公式。
  • 数学表达式标准化研究: 分析维基媒体项目中数学表达式的使用规范与格式差异,推动表达式标准化。
  • 教育资源开发: 提取高频数学表达式,用于数学教育资源的内容补充与结构化整理。
  • 自然语言处理应用: 作为数学表达式识别、解析模型的训练数据,提升模型对数学内容的处理能力。
  • 学术研究支持: 为数学领域的学术研究提供大规模、多样化的表达式数据样本。
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 307.2 MiB
最后更新 2026年2月2日
创建于 2026年2月2日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。