基于多样化堆叠泛化方法的网站分类创新企业识别原始结果数据集

数据集概述

本数据集记录了使用多样化堆叠泛化方法进行网站分类以识别创新企业的原始计算结果,包含各机器学习模型的性能统计与时间处理统计数据,为评估分类模型效果提供支撑。

文件详解

  • 性能统计文件(CSV格式):
  • 命名规则:methodName-stat.csv(如rf-stat.csv、C5.0Cost-stat.csv)
  • 字段映射:
  • dataSetName:数据集名称(firstPages/LD、firstPageLabels/LL、aggregateDocument/LB)
  • featurNo:特征数量
  • method:caret包中的函数名称
  • parameters:模型调参后参数
  • precision:精确率
  • recall:召回率
  • fmeasure:F值
  • error:错误率
  • acc:准确率
  • 时间处理统计文件(CSV格式):
  • 命名规则:methodName-time.csv(如xgbLinear-times.csv、svmLinear-times.csv)
  • 字段映射:
  • dataSetName:数据集名称
  • featurNo:特征数量
  • method:caret包中的函数名称
  • user:用户时间
  • system:系统时间
  • elapsed:总耗时
  • 技术报告文件:
  • 文件名称:technical-report.pdf
  • 文件格式:PDF
  • 内容说明:提供实验方法、计算环境及结果分析的详细背景文档

适用场景

  • 机器学习模型性能评估:对比不同分类算法在网站分类任务中的精度与效率
  • 创新企业识别研究:分析文本特征与链接标签对企业创新属性分类的影响
  • 计算资源优化:探究不同硬件配置对机器学习模型训练效率的影响
  • 网站内容分类应用:为企业网站自动化分类系统的开发提供数据支撑
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 0.94 MiB
最后更新 2025年12月11日
创建于 2025年12月11日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。