TripAdvisor网站餐厅数据抓取数据集-餐厅信息与评价-2020年
数据来源:互联网公开数据
标签:餐厅,TripAdvisor,评价,餐饮,数据抓取,商业分析,地理位置,排名,消费者行为
数据概述:
本数据集基于TripAdvisor网站抓取,包含了2020年收集的餐厅相关数据。数据来源于一个用于餐厅评价预测比赛的训练数据集,抓取代码可在GitHub仓库https://github.com/pustovalovm/SF_training.git的module_3/version_2_with_scraping文件夹中找到。数据集详细记录了餐厅的各项信息,包括餐厅名称、地理位置、评价、菜品、价格、排名等。
数据字段包括:
ID_TA:餐厅唯一标识符
name:餐厅名称
closed:餐厅是否已关闭(1表示已关闭)
inactive:餐厅页面在2020年11月是否不存在(1表示不存在)
name_changed:餐厅名称是否更改(1表示已更改,将重定向到新页面)
rating:餐厅星级评分
claimed:餐厅页面是否有“已认领”标记(1表示有)
primary_cus:餐厅主要菜系
city:餐厅所在城市
cuisines:餐厅提供的菜系列表
special_diets:餐厅提供的特殊饮食选项列表
pricing:餐厅价格档次
rank:餐厅在城市中的排名
city_rest_count:城市中餐厅总数(用于排名)
is_website:餐厅是否有网站链接(1表示有)
photo_count:餐厅的照片数量
is_video:餐厅页面是否有视频(1表示有)
cus_rest_rank:餐厅在其主要菜系中的排名
cus_rest_count:参与上述排名的餐厅数量
address:餐厅地址
mail:餐厅的电子邮件地址(如有)
tel:餐厅电话号码(如有)
review_number:餐厅的评论数量
reviews:最近几条评论的文本(英文)
review_dates:这些评论的日期(包括非英文评论)
review_ratings:这些评论的评分
orig_url和URL_TA:餐厅的原始URL和TripAdvisor网站上的URL,如果发生重定向,则两者可能不同
数据用途概述:
该数据集可用于多方面的分析和研究,例如:餐厅评价预测、餐饮行业竞争分析、消费者行为研究、城市餐饮业发展趋势分析、餐厅排名影响因素分析、以及数据抓取技术的应用研究等。研究人员可以利用该数据分析影响餐厅评分的因素,探索不同菜系、价格、地理位置等因素对餐厅受欢迎程度的影响,从而为餐饮业的经营决策提供参考。