4.5 总结 (Summary)

上面介绍的材料很容易让人混淆。我们涵盖了值迭代、策略迭代、策略提取和策略评估，所有这些看起来都很相似，都使用贝尔曼方程，但有细微的变化。

以下是每种算法目的的总结：

值迭代 (Value iteration)：用于通过迭代更新直到收敛来计算状态的最优值。
策略评估 (Policy evaluation)：用于计算特定策略下状态的值。
策略提取 (Policy extraction)：用于在给定某个状态值函数的情况下确定策略。如果状态值是最优的，则此策略将是最优的。此方法用于在运行值迭代后从最优状态值计算最优策略，或作为策略迭代中的子程序来计算当前估计状态值的最佳策略。
策略迭代 (Policy iteration)：一种封装了策略评估和策略提取的技术，用于迭代收敛到最优策略。由于策略通常比状态值收敛得快得多，因此它往往优于值迭代。