前几天同事在群里发了一个推荐系统的一个总结图,感觉还不错,做个记录
层级 | 数据 | 服务 | 特点 | 约束 | 典型任务 | 举例 |
---|---|---|---|---|---|---|
离线 | 非实时 | 非实时 | 1、可以处理大数据量 2、可以运行批量任务 3、低成本尝试多种算法 4、可加机器提升效率 |
1、无法及时捕获最新的用户兴趣 2、无法给用户最及时的推荐 |
1、批量机器学习算法 2、批量计算推荐结果 3、挖掘用户标签 4、物品的内容分析 |
1、矩阵分解,学习得到用户隐因子向量和物品隐因子向量 2、学习500棵GBDT决策树 3、以GBDT输出作为特征学习了LR模型参数 |
近线 | 实时 | 非实时 | 1、能捕捉到用户最新兴趣 2、能运行较复杂的学习算法 3、能比较及时给用户响应 |
1、能处理的数据量有限 2、部分依赖离线计算的结果 3、和离线无缝结合有一定的复杂度 |
1、用最新事件补充召回推荐结果 2、小批量样本更新模型参数 |
1、用户新评分的电影计算相似电影补进离线推荐结果 2、根据最新浏览提取新的标签补充到用户标签中 |
在线 | 实时 | 实时 | 1、对场景信息敏感 2、立即满足用户 3、运行简单算法和逻辑 |
1、响应时间是硬要求 2、要准备降级服务的推荐结果 3、计算复杂度有限 |
1、过滤逻辑 2、运营手段 3、融合排序 4、多样性提升 |
1、取出近线阶段的推荐电影和物品的内容特征、用户特征 2、运行GBDT模型得到的500个新特征,运行LR模型输出融合排序 3、过滤掉看过的,过滤掉已被删除的 4、根据多样性要求去掉高度相似的电影 5、强插一些当季运营活动需要的到指定位置 6、输出推荐结果 |