V2EX  ›  英汉词典

Bellman Optimality Equation

定义(Definition)

贝尔曼最优性方程:在动态规划与马尔可夫决策过程(MDP)中,用来刻画“最优价值函数”的递推关系。它表达了:某状态(或状态-动作)的最优价值等于在所有可选动作中,立即回报与未来最优价值(折扣后期望)的最大值之和。(常见形式有状态价值 (V^) 与动作价值 (Q^) 两类;在强化学习中非常核心。)

发音(IPA)

/ˈbɛlmən ˌɑːptəˈmælɪti ɪˈkweɪʒən/

例句(Examples)

The Bellman optimality equation defines the best possible value function.
贝尔曼最优性方程定义了可能达到的最优价值函数。

In a discounted MDP, we can compute (V^) by applying the Bellman optimality equation repeatedly until it converges.
在折扣型的马尔可夫决策过程中,我们可以反复应用贝尔曼最优性方程来计算 (V^
),直到它收敛为止。

词源(Etymology)

“Bellman”来自美国数学家 Richard Bellman(理查德·贝尔曼),他在20世纪中期系统发展了动态规划(Dynamic Programming);“optimality equation”直译为“最优性方程”,指用递推(recursion)方式表达最优决策结构的方程。该术语因此可理解为“贝尔曼提出/刻画的最优递推方程”。

相关词(Related Words)

文学/著作中的出现(Literary Works)

  • Richard Bellman, Dynamic Programming(1957)
  • Martin L. Puterman, Markov Decision Processes: Discrete Stochastic Dynamic Programming(1994)
  • Dimitri P. Bertsekas, Dynamic Programming and Optimal Control(多版)
  • Richard S. Sutton & Andrew G. Barto, Reinforcement Learning: An Introduction(多版)
关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   2091 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 15ms · UTC 14:16 · PVG 22:16 · LAX 06:16 · JFK 09:16
♥ Do have faith in what you're doing.