强化学习

强化学习的优势

期望回报：优化序列决策过程中的一条轨迹中每个动作叠加在一起的累计回报，考虑全局最优而非贪心单次最优。
得不到动作指导信号，只有动作评价信号。只能靠试错学习，没有专家指导。或者已经有了专家指导，希望超越专家。

适合解决什么问题

固定场景：状态空间不大，整个trajectory不长
问题不复杂：没有太多层次化的任务目标，reward好设计
试错成本低：咋作都没事
数据收集容易：百万千万级别的数据量，如果不能把数据收集做到小时级别，整个任务的时间成本就不能与传统的监督学习相比
目标单纯：容易被reward function量化，比如各种super-human的游戏。对于一些复杂的目标，比如几大公司都在强调拟人化，目前没有靠谱的解决方案

强化学习的问题

灾难性遗忘：同时数据分布在训练过程中会发生显著变化
credit assign：动作空间不能太大
reward强依赖：必须容易设计reward function
对抗噪声干扰能力不足：obs有噪声，reward更有噪声，直接导致训练无法收敛
mdp假设过强，对于pomdp问题效果大打折扣

强化学习训练指标

采样动作分布
Entropy
Q-function Loss
Q-function vs Return
Q1-Q2
Reward vs Return

results matching ""

No results matching ""