泰国炒河粉食谱分析数据集-2024年
数据来源:互联网公开数据
标签:泰国炒河粉,食谱,食材,用户评价,数据挖掘,机器学习
数据概述:
本数据集包含从Yummly和Allrecipes网站爬取的160份Yummly和25份Allrecipes泰国炒河粉(Pad Thai)食谱。数据集涵盖了食谱名称、创作者、平均评分、评价人数、保存人数、链接、食材列表及其用量等关键信息。此数据集为研究泰国炒河粉的国际流行趋势和用户偏好提供了宝贵的数据基础。
数据用途概述:
该数据集适用于食谱分析、食材用量和评分预测等场景。研究人员可以利用此数据集进行食谱推荐系统的开发、食材用量优化、用户偏好研究等。此外,餐饮业者和食品生产商可以利用此数据集进行新食谱的初步评估,通过机器学习模型预测食谱的受欢迎程度,从而优化产品组合和营销策略。
数据集描述:
本数据集包括以下关键字段:
recipe_id:食谱的唯一标识符
recipe_source:食谱来源网站(Yummly或Allrecipes)
recipe_name:食谱名称
recipe_creator_name:食谱创作者名称
recipe_ratings:用户在两个网站上的平均评分(1到5分)
recipe_ratings_normalized:归一化评分(0到1分)
recipe_num_of_reviewers:每个食谱的评价人数
recipe_num_saved:在Yummly上保存食谱的用户人数
recipe_link:食谱链接
ingredient_id:食材的唯一标识符
ingredient_name, original_ingredient_amount, original_ingredient_unit:食材的原始名称、用量和单位
common_ingredient_name, new_ingredient_amount, new_ingredient_unit:食材的通用名称、转换后的用量和单位
ingredient_category:食材类别
ingredient_remainder:食材的描述和准备说明
default_unit:最终数据集中使用的默认单位
columns with ingredient name:每个食谱中使用的食材用量
数据集不包含食谱的具体烹饪步骤。
数据集的独特之处:
与之前的51份泰国炒河粉食谱数据集相比,本数据集提供更详细的食材用量信息,并从两个流行的国际平台收集数据。这为食谱推荐和优化提供了更丰富和准确的参考。
数据收集协议:
数据由爬虫从Yummly和Allrecipes的食谱和评论部分收集,创作者公开发布食谱并获得用户评分。收集的数据经过初步整理和清洗后整合到单一数据集中。为了便于比较不同来源的评分,进行了评分归一化。对于缺失的食材用量和单位,使用了默认单位进行补充,并进行了必要的单位转换和名称映射。