推荐系统深度学习读书笔记-5

本章主要内容是以下7点：

DIEN有效的前提条件：

应用场景存在兴趣的进化

用户兴趣的进化过程能够被数据完整捕获

推荐系统真正的银弹是对用户行为和应用场景的观察

用户冷启动：新用户注册后，没有历史行为数据时的个性化推荐

物品冷启动：系统加入新物品后，没有与用户的交互记录

系统冷启动：推荐系统刚布置，没有任何历史数据

三大类方法：

传统的探索与利用方法

多臂老虎机问题（Multi-Armed Bandit problem）

一排老虎机，外表一模一样，但每个老虎机获得回报的期望不同，N次机会，按什么顺序选择老虎机可以收益最大化

物品就是老虎机，推荐系统如何选择老虎机，才能让收益最大化

Epsilon-Greedy算法

选择一个【0，1】的数epsilon，每次以epsilon的概率在所有老虎机中进行随机选择，以1-epsilon的概率选择截至当前平均收益最大的老虎机，在摇臂后，根据回报值对老虎机的回报期望进行更新。

以epsilon去探索，以1-epsilon去利用

Thompson Sampling

启发式探索与利用算法

beta分布是伯努利分布的共轭先验分布，因为掷硬币的过程是标准的伯努利分布过程

具体可以参考：

https://www.zhihu.com/question/37212823

UCB

经典的启发式探索与利用算法

基于霍夫丁不等式推导而来

https://zhuanlan.zhihu.com/p/45342697

无法解决引入个性化特征的问题，限制了探索与利用方法在个性化推荐场景下的使用

个性化的探索与利用方法

引入个性化信息，基于上下文的多臂老虎机算法（Contextual-Bandit Algorithm）

LinUCB算法

基于模型的探索与利用方法

DRN

在推荐系统下的应用