gpt4 book ai didi

artificial-intelligence - 聚合概率计划

转载 作者:行者123 更新时间:2023-11-30 08:51:17 25 4
gpt4 key购买 nike

我正在尝试创建一个简单的 STRIPS基于计划者。我已经完成了计算将达到目标的单独概率计划的基本功能,但现在我正在尝试确定如何根据这些计划的初始操作来聚合这些计划,以确定时间 t0 时的“总体”最佳操作是什么.

考虑以下示例。效用介于 0 和 1 之间,表示计划实现目标的程度。 CF 也介于 0 和 1 之间,表示确定性因子,或者执行计划将产生给定效用的概率。

Plan1: CF=0.01, Utility=0.7
Plan2: CF=0.002, Utility=0.9
Plan3: CF=0.03, Utility=0.03

如果所有三个相互排斥的计划都从操作 A1 开始,我应该如何聚合它们以确定使用操作 A1 的整体“适合度”?我的第一个想法是对确定性因素求和,然后乘以效用平均值。这看起来正确吗?

所以我当前的结果如下:

fitness(A1) = (0.01 + 0.002 + 0.03) * (0.7 + 0.9 + 0.03)/3. = 0.02282

或者我应该计算各个可能的效用,并对其求平均值?

fitness(A1) = (0.01*0.7 + 0.002*0.9 + 0.03*0.03)/3. = 0.00323

有没有理论上更合理的方法?

最佳答案

如果您采取行动 A1,那么您必须决定遵循 3 个计划中的哪一个,这三个计划是互斥的。此时我们可以计算出方案1的期望效用为

E[plan1] = Prob[plan1 succeeds]*utility-for-success 
+ Prob[plan1 fails]*utility-of-failure
= .01*.7 + .99*0 //I assume 0
= .007

其他 2 个计划也是如此。但是,由于您只能选择一个计划,因此采取行动 A1 的真正预期效用(我认为这就是您所说的“健身”的意思)是

max(E[plan1],E[plan2],E[plan3]) = fitness(A1)

关于artificial-intelligence - 聚合概率计划,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3701278/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com