数据集概述
该数据集是用于研究情境化推荐和路线推荐的专用数据,包含纽约、八打灵再也(吉隆坡)、东京三座城市的POI信息、用户轨迹及天气数据。需通过Foursquare API获取POI详情,配套脚本支持数据处理与格式转换,为相关推荐算法研究提供多维度数据支持。
文件详解
该数据集包含多个文件和目录,具体说明如下:
- 核心城市数据文件(ZIP格式):
- NewYorkCity.zip: 纽约市相关数据
- PetalingJaya.zip: 八打灵再也(吉隆坡)相关数据
- Tokyo.zip: 东京市相关数据
- 每个城市ZIP文件包含:
- POIS_.csv: 2024年11月可通过Foursquare API获取数据的POI ID列表
- ALL_POIS_.csv: 该城市所有POI的Foursquare ID列表
- __trails_weather.zip: 用户轨迹与天气数据CSV(含trail_id、user_id、venue_id、timestamp、temp等字段)
- __trails_weather_aggregated.zip: 聚合后的用户签到数据(含训练集、测试集)
- __trails_routes_*.zip: 路线推荐任务的训练/测试集
- 数据处理脚本:
- download_process_poi_info.sh: POI数据处理与下载脚本
- request_foursquare_API.py: 调用Foursquare API获取POI信息的Python代码
- generate_poi_data.py: 将JSON格式POI数据转换为CSV的Python代码
- map_categories.py: 扩展POI CSV以包含一级分类的Python代码
- 补充文件:
- online_appendix.pdf: 论文扩展图表(含路线规模、天气条件等数据特征)
- requirements.txt: Python依赖包列表(如pandas、requests等)
- categories_data_Foursquare.csv: Foursquare分类数据(含category_id、category_name等字段)
适用场景
- 情境感知推荐系统研究: 结合天气、时间等情境因素分析用户POI选择偏好
- 路线推荐算法开发: 基于多城市用户轨迹数据构建和测试路线推荐模型
- 时空数据挖掘: 分析不同城市POI分布特征及用户移动模式
- 推荐系统评估: 利用预设的训练/测试集验证推荐算法性能
- 跨城市推荐差异研究: 对比纽约、东京等不同城市的推荐场景差异