马尔克-试点数据集

马尔克-试点数据集

数据来源:互联网公开数据

标签:产品匹配,实体识别,二进制分类,不平衡数据,机器学习

数据概述: 本数据集为产品匹配研究提供了高质量的数据资源。每个数据点由一对产品及其二进制标签组成,标签指示这两个产品是否指向同一个实体。数据集分为四个子集:Full、L、M、S,分别包含960,532、243,954、66,556和18,973个数据点。各子集的正负样本比例不同,不平衡比率分别为2.3、4.5、9.0和18.1。测试集包含5,000个手动验证的数据点,适用于所有子集。

数据用途概述: 该数据集适用于产品匹配算法的研发、机器学习模型的训练与评估,尤其是处理不平衡数据的场景。研究人员可利用此数据集进行实体识别、商品推荐系统优化以及跨平台产品匹配研究。此外,数据集也适合用于教育培训,帮助学习者理解产品匹配的实际应用和挑战。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 609.49 MiB
最后更新 2025年5月31日
创建于 2025年5月31日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。