d*z 发帖数: 150 | 1
我的复杂计算结果是
A在没有输赢时的测略是以sqrt(2)/2的概率放1,1-sqrt(2)/2的概率
放2。
在赢1块时的策略是以2-sqrt(2)的概率放1,sqrt(2)-1的概率放2。
在输1快是的策略是以2-sqrt(2)的概率放1,sqrt(2)-1的概率放2。
B在没有输赢时的策略是以1/2的概率分别猜1和2。
B在赢1块时的策略是以2-sqrt(2)的概率猜1,sqrt(2)-1的概率猜2。
B在输1块是的策略是以2-sqrt(2)的概率猜1,sqrt(2)-1的概率猜2。
两者赢得概率都是1/2,既游戏是公平的。
设状态s(0)为没有输赢是的状态
设状态s(1)为A赢1块是的状态
设状态s(-1)为A输1块是的状态
计算过程如下,假设在A,B都策略最优时,如果从s(0)开始,A赢得游
戏的概率是u(0),
同样从s(1)开始,A赢得游戏的概率是u(1),
从s(-1)开始,A赢得游戏的概率是u(-1);
在s(0),A的最优策略是以概率a(0)选择1,B的最优策略是以b(0)猜1
。 (1)
在s(1),A的最优策略是以概率a(1)选择1,B的最优策略是以b(1)猜 |
|