k***e 发帖数: 556 | 1 假定开始有n¥,0¥和n+m¥为absorbing states,每次均赢一元(概率为p)或者输一
元(1-p)那到n+m的期望步数是多少?
我已经知道如何计算到0或者n+m的期望,但是分别到0和到n+m的期望怎么算呢?请大侠
指教 |
t*****a 发帖数: 90 | 2 不太难, 转化成markov chain with reward就成... 但是你要把reward model成是达到
target terminal state的probability... 这样一来在每个state的reward都不一样 |
k***e 发帖数: 556 | 3 按照你说的关键字搜索 结果找到些paper
大侠能否再提示一下?自学中,看的书也没有提到你说的这些概念。先谢了!
【在 t*****a 的大作中提到】 : 不太难, 转化成markov chain with reward就成... 但是你要把reward model成是达到 : target terminal state的probability... 这样一来在每个state的reward都不一样
|
t*****a 发帖数: 90 | 4 这两天比较忙... 周末试试post detail solution |