葡萄酒质量预测数据集
数据来源:互联网公开数据
标签:葡萄酒,质量预测,机器学习,物流回归,分类,回归任务,葡萄酒质量评分,品酒,化学成分,感官评价
数据概述:
本数据集包含葡萄牙“Vinho Verde”红酒和白葡萄酒的两种变体的相关数据。数据集提供了葡萄酒的理化(输入)和感官(输出)变量,但不包括葡萄种类、品牌、销售价格等信息。数据主要用于分类或回归任务,输出变量为葡萄酒质量评分(0到10之间的分数)。数据集中的质量类别是有序且不平衡的,即普通质量的葡萄酒数量远多于优质或劣质葡萄酒。
数据用途概述:
该数据集适用于葡萄酒质量预测、机器学习模型开发、回归分析和分类分析等多种场景。研究者可以利用此数据集训练物流回归模型,预测葡萄酒的质量;也可以将其转换为二分类任务,研究哪些理化特性使得葡萄酒被评为“优质”。此外,数据集也适合用于教育培训,帮助学习者理解机器学习算法的应用和评估方法。
举例:
1. 文件读取器(用于读取CSV文件)连接到线性相关性节点和交互直方图节点,进行基本的探索性数据分析。
2. 文件读取器连接到规则引擎节点,将10点评分系统转换为二元变量(优质/非优质),规则引擎中的代码示例为:$quality$ > 6.5 => "优质";TRUE => "非优质"。
3. 规则引擎节点的输出连接到列过滤节点,过滤掉原始的10点评分特征,以避免信息泄漏。
4. 列过滤节点的输出连接到分区节点,进行标准的训练/测试数据分割(例如75%/25%),选择随机或分层分割方法。
5. 分区节点的训练数据分割输出连接到决策树学习器节点。
6. 分区节点的测试数据分割输出连接到决策树预测节点。
7. 决策树学习器节点的输出连接到决策树节点的输入。
8. 决策树节点的输出连接到ROC节点,评估模型的性能(基于AUC值)。