TripAdvisor网站餐厅数据抓取数据集-餐厅信息与评价-2020年

TripAdvisor网站餐厅数据抓取数据集-餐厅信息与评价-2020年

数据来源:互联网公开数据

标签:餐厅,TripAdvisor,评价,餐饮,数据抓取,商业分析,地理位置,排名,消费者行为

数据概述: 本数据集基于TripAdvisor网站抓取,包含了2020年收集的餐厅相关数据。数据来源于一个用于餐厅评价预测比赛的训练数据集,抓取代码可在GitHub仓库https://github.com/pustovalovm/SF_training.git的module_3/version_2_with_scraping文件夹中找到。数据集详细记录了餐厅的各项信息,包括餐厅名称、地理位置、评价、菜品、价格、排名等。

数据字段包括: ID_TA:餐厅唯一标识符 name:餐厅名称 closed:餐厅是否已关闭(1表示已关闭) inactive:餐厅页面在2020年11月是否不存在(1表示不存在) name_changed:餐厅名称是否更改(1表示已更改,将重定向到新页面) rating:餐厅星级评分 claimed:餐厅页面是否有“已认领”标记(1表示有) primary_cus:餐厅主要菜系 city:餐厅所在城市 cuisines:餐厅提供的菜系列表 special_diets:餐厅提供的特殊饮食选项列表 pricing:餐厅价格档次 rank:餐厅在城市中的排名 city_rest_count:城市中餐厅总数(用于排名) is_website:餐厅是否有网站链接(1表示有) photo_count:餐厅的照片数量 is_video:餐厅页面是否有视频(1表示有) cus_rest_rank:餐厅在其主要菜系中的排名 cus_rest_count:参与上述排名的餐厅数量 address:餐厅地址 mail:餐厅的电子邮件地址(如有) tel:餐厅电话号码(如有) review_number:餐厅的评论数量 reviews:最近几条评论的文本(英文) review_dates:这些评论的日期(包括非英文评论) review_ratings:这些评论的评分 orig_url和URL_TA:餐厅的原始URL和TripAdvisor网站上的URL,如果发生重定向,则两者可能不同

数据用途概述: 该数据集可用于多方面的分析和研究,例如:餐厅评价预测、餐饮行业竞争分析、消费者行为研究、城市餐饮业发展趋势分析、餐厅排名影响因素分析、以及数据抓取技术的应用研究等。研究人员可以利用该数据分析影响餐厅评分的因素,探索不同菜系、价格、地理位置等因素对餐厅受欢迎程度的影响,从而为餐饮业的经营决策提供参考。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 43.97 MiB
最后更新 2025年4月22日
创建于 2025年4月22日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。