婚介推荐数据集
数据来源:互联网公开数据
标签:婚介,推荐系统,用户匹配,约会应用,数据集,机器学习,自然语言处理
数据概述:
本数据集旨在帮助训练基本的婚介推荐模型。尽管记录数量不多,但公开可用的约会应用数据集较少,因此该数据集可以为婚介或匹配服务应用的推荐模型提供基础。数据集包含四个主要文件:user_feature.csv、actions.csv、bio.csv 和 looking_for.csv。user_feature.csv 包含124名真实用户的各项特征;actions.csv 记录了不同用户之间的1048次互动;bio.csv 提供每个用户的个人简介;looking_for.csv 则记录了每个用户对理想伴侣的期望。此外,races.csv 文件将每个种族ID与种族名称关联起来。
数据用途概述:
该数据集适用于婚介推荐系统的研究与开发,帮助研究人员训练和评估推荐算法。数据集可用于分析用户特征与互动模式之间的关系,识别潜在的匹配对,并优化推荐策略。此外,该数据集也可用于教育培训,帮助学习者理解婚介推荐系统的构建过程。
数据集由 mstz 的 speedating 数据集转换而来,经过重新结构化以适应“用户/项目”框架,更适合训练推荐模型。随后使用 GPT4 生成了每个用户的个人简介和对理想伴侣的期望描述。如需复现该数据集的构建过程,可参考以下步骤:
1. 运行此笔记本:https://huggingface.co/datasets/dstam/matchmaking/blob/main/description_generator.ipynb
2. 运行此处保存的文件:https://huggingface.co/datasets/dstam/matchmaking/blob/main/clean_text_files.py
引用格式:
@misc{婚介推荐数据集 1.0,
title = {婚介推荐数据集 1.0: 一个开源的基础数据集,用于训练婚介应用和匹配推荐模型},
author = {danstam},
year = {2024},
publisher = {Kaggle},
url = {https://www.kaggle.com/datasets/dansta17/matchmaking-recommendation}
}