Q: 为什么Q-Learning不用重要性采样?
首先,
vπ(s)=Eπ[Gt∣St=s]v_\pi(s)=\mathbb E_\pi[G_t|S_t=s]vπ(s)=Eπ[Gt∣St=s]
qπ(s,a)=Eπ[Gt∣St=s,At=a]q_\pi(s,a)=\mathbb E_\pi[G_t|S_t=s, A_t=a]qπ(s,a)=Eπ[Gt∣St=s,At=a]
注意到Q-learning要学习的是Q(s,a)=∑s′P(s′∣s,a)(R(s′)+γmaxaQ(s′,a))Q(s,a)=\sum\limits_{s'}P(s'|s,a)\left(R(s')+\gamma \max\limits_{a}Q(s',a)\right)Q(s,a)=s′∑P(s′∣s,a)(R(s′)+γamaxQ(s′,a))
与qπ(s,a)q_\pi(s,a)qπ(s,a)不同,此处s′∼P(s′∣s,a)s'\sim P(s'|s,a)s′∼P(s′∣s,a),求期望过程中动作aaa不是随机变量,而是给定的值,因此不涉及重要性采样。