强化学习
强化学习的优势
- 期望回报:优化序列决策过程中的一条轨迹中每个动作叠加在一起的累计回报,考虑全局最优而非贪心单次最优。
- 得不到动作指导信号,只有动作评价信号。只能靠试错学习,没有专家指导。或者已经有了专家指导,希望超越专家。
适合解决什么问题
- 固定场景:状态空间不大,整个trajectory不长
- 问题不复杂:没有太多层次化的任务目标,reward好设计
- 试错成本低:咋作都没事
- 数据收集容易:百万千万级别的数据量,如果不能把数据收集做到小时级别,整个任务的时间成本就不能与传统的监督学习相比
- 目标单纯:容易被reward function量化,比如各种super-human的游戏。对于一些复杂的目标,比如几大公司都在强调拟人化,目前没有靠谱的解决方案
强化学习的问题
- 灾难性遗忘:同时数据分布在训练过程中会发生显著变化
- credit assign:动作空间不能太大
- reward强依赖:必须容易设计reward function
- 对抗噪声干扰能力不足:obs有噪声,reward更有噪声,直接导致训练无法收敛
- mdp假设过强,对于pomdp问题效果大打折扣
强化学习训练指标
- 采样动作分布
- Entropy
- Q-function Loss
- Q-function vs Return
- Q1-Q2
- Reward vs Return