-
Wikimedia_数学表达式去重列表数据
2026年2月2日 30 174 21
数据集概述 本数据集包含维基媒体所有项目(含维基百科)中使用的全部数学表达式的去重列表。数据以JSON格式存储,键为输入内容的MD5哈希值,值为从维基文本源中提取的数学表达式内容。数据集可用于数学表达式的标准化、知识图谱构建等场景,仅包含一个文件。 文件详解 文件名称:wmf_texvc_inputs.json 文件格式:JSON...
-
英文维基百科文本数据集
2025年12月23日 30 103 77
数据集概述 本数据集包含英文维基百科文本的转储文件,以及相关的测试数据说明文档和压缩工具。数据文件类型多样,涵盖PMD格式文本、压缩包、可执行文件和网页文档,为英文维基百科文本相关的实验或测试提供数据支持。 文件详解 该数据集包含7个文件,具体说明如下: - 文本文件: - enwik8.pmd: PMD格式文件,可能为英文维基百科文本数据 -...
-
印地语和泰米尔语维基文本数据集HindiandTamilWikiTextDataset-starkking07
2025年5月30日 30 66 47
印地语和泰米尔语维基文本数据集HindiandTamilWikiTextDataset-starkking07 数据来源:互联网公开数据 标签:自然语言处理,语言模型,文本分类,印地语,泰米尔语,数据集,机器学习,多语言处理 数据概述: 该数据集包含来自维基百科的印地语和泰米尔语文本数据,记录了两门语言的维基百科文章内容。主要特征如下:...
-
维基文本清洗数据集第二部分WikitextCleanDataPart2Dataset-yingpengchen
2025年5月29日 30 149 0
维基文本清洗数据集第二部分WikitextCleanDataPart2Dataset-yingpengchen 数据来源:互联网公开数据 标签:自然语言处理,文本数据,数据集,文本清洗,机器学习,语言模型,信息检索,文本分析 数据概述: 该数据集是维基文本清洗数据集的第二部分,包含了从维基百科中提取和清洗过的文本数据。主要特征如下:...



