T20I6D100K_高维稀疏事务模式挖掘基准数据集

数据集概述

本数据集是一个用于频繁项集挖掘算法研究的标准基准数据集,包含99,910条事务记录和893个不同的项目。数据具有高维稀疏特性,平均事务长度为19.9个项目,最大事务长度为47个项目。数据集适用于评估关联规则挖掘、频繁模式发现等数据挖掘算法的性能和效率。

文件详解

  • Transactional_T20I6D100K.csv
  • 文件格式:CSV
  • 字段映射介绍:每行代表一条事务记录,包含不定数量的项目编号,项目之间用空格分隔。例如:"752 826 834 720"表示该事务包含编号为752、826、834、720的四个项目。

数据来源

频繁项集挖掘实现(FIMI)资料库(http://fimi.uantwerpen.be/data/

适用场景

  • 频繁项集挖掘算法评估:用于测试和比较不同频繁模式挖掘算法在处理高维稀疏数据时的性能表现
  • 关联规则分析:研究项目之间的关联关系,发现潜在的关联规则
  • 数据挖掘算法基准测试:作为标准基准数据集,用于算法效率、可扩展性和内存消耗的评估
  • 稀疏数据处理研究:分析算法在处理高维稀疏数据集时的优化策略和效果
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 2.13 MiB
最后更新 2025年11月26日
创建于 2025年11月26日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。