java - Alpha beta 修剪没有产生好的结果-6ren

java - Alpha beta 修剪没有产生好的结果

转载作者：塔克拉玛干更新时间：2023-11-03 06:11:16

----------------

真题

----------------

好的，真正的问题不在于 alpha-beta 剪枝与 minimax 算法。问题在于，树中的 minimax 算法只会给出最佳解决方案，而 alpha-beta 会给出正确的值，但多个子节点具有最佳值，而其中一些子节点不应该具有该值。

我想最终的问题是，获得根节点的最佳(在平局的情况下可能是多个)子节点的最有效方法是什么。

算法产生了正确的值，但多个节点与该值相关联，即使某些移动显然是错误的。

例子:滴答作响

-|-|O
-|X|-
-|X|-

将生成以下值:(0,1) 和 (1,0) 我的启发式值为 -0.06

(0,1) 是正确的值，因为它会阻止我的 X，但 (0,1) 是错误的，因为下一步我可以将 X 放在 (0,1) 并获胜。

当我在没有

的情况下运行相同的算法时

if(beta<=alpha)
    break;

它只返回值为 -0.06 的 (0,1)

----------------

最初发布的问题，现在只是糖

----------------

我花了几天时间试图弄清楚为什么我的最小最大算法有效，但是当我向它添加 alpha beta 剪枝时，它不起作用。我知道他们应该给出相同的结果，我什至对此进行了快速测试。我的问题是，为什么我的实现没有产生相同的结果？

这是 tic tak toe 在 android 中的实现。有时我可以打败算法

if(beta<=alpha) break;

没有被注释掉，但是被注释掉了就不可战胜了。

private static double minimax(Node<Integer,Integer> parent, int player, final int[][] board, double alpha, double beta, int depth) {
    List<Pair<Integer, Integer>> moves = getAvailableMoves(board);
    int bs = getBoardScore(board);
    if (moves.isEmpty() || Math.abs(bs) == board.length)//leaf node
        return bs+(player==X?-1:1)*depth/10.;
    double bestVal = player == X ? -Integer.MAX_VALUE : Integer.MAX_VALUE;
    for(Pair<Integer, Integer> s : moves){
        int[][] b = clone(board);
        b[s.getFirst()][s.getSecond()]=player;
        Node<Integer, Integer> n = new Node<>(bs,b.hashCode());
        parent.getChildren().add(n);
        n.setParent(parent);
        double score = minimax(n,player==O?X:O,b,alpha,beta, depth+1);
        n.getValues().put("score",score);
        n.getValues().put("pair",s);
        if(player == X) {
            bestVal = Math.max(bestVal, score);
            alpha = Math.max(alpha,bestVal);
        } else {
            bestVal = Math.min(bestVal, score);
            beta = Math.min(beta,bestVal);
        }
        /*
        If i comment these two lines out it works as expected
        if(beta<= alpha)
            break;
        */
    }
    return bestVal;
}

现在，由于搜索树较小，这对 tick tack toe 来说不是问题，但我随后为西洋跳棋开发了它，并注意到了同样的现象。

private double alphaBeta(BitCheckers checkers, int depth, int absDepth, double alpha, double beta){
    if(checkers.movesWithoutAnything >= 40)
        return 0;//tie game//needs testing
    if(depth == 0 || checkers.getVictoryState() != INVALID)
        return checkers.getVictoryState()==INVALID?checkers.getBoardScore()-checkers.getPlayer()*moves/100.:
                checkers.getPlayer() == checkers.getVictoryState() ? Double.MAX_VALUE*checkers.getPlayer():
                        -Double.MAX_VALUE*checkers.getPlayer();
    List<Pair<Pair<Integer, Integer>, Pair<Integer, Integer>>> moves;
    if(absDepth == maxDepth)
        moves = (List<Pair<Pair<Integer, Integer>, Pair<Integer, Integer>>>) node.getValues().get("moves");
    else
        moves = checkers.getAllPlayerMoves();
    if(moves.isEmpty()) //no moves left? then this player loses
        return checkers.getPlayer() * -Double.MAX_VALUE;
    double v = checkers.getPlayer() == WHITE ? Double.NEGATIVE_INFINITY : Double.POSITIVE_INFINITY;
    for(Pair<Pair<Integer, Integer>, Pair<Integer, Integer>> i : moves){
        BitCheckers c = checkers.clone();
        c.movePiece(i.getFirst().getFirst(),i.getFirst().getSecond(),i.getSecond().getFirst(),i.getSecond().getSecond());
        int newDepth = c.getPlayer() == checkers.getPlayer() ? depth : depth - 1;
        if(checkers.getPlayer() == WHITE) {
            v = Math.max(v, alphaBeta(c, newDepth, absDepth - 1, alpha, beta));
            alpha = Math.max(alpha,v);
        }else {
            v = Math.min(v, alphaBeta(c, newDepth, absDepth - 1, alpha, beta));
            beta = Math.min(beta,v);
        }
        if(absDepth == maxDepth) {
            double finalScore = v;
            for(Node n : node.getChildren())
                if(n.getData().equals(i)){
                    n.setValue(finalScore);
                    break;
                }
        }
        /*
        If i comment these two lines out it works as expected
        if(beta<= alpha)
            break;
        */
    }
    return v;
}

我用 pvs 对其进行了测试，它给出了与 alpha-beta 剪枝相同的结果，即几乎不如极小极大。

public double pvs(BitCheckers checkers, int depth, int absDepth, double alpha, double beta){
    if(checkers.movesWithoutAnything >= 40)
        return 0;//tie game//needs testing
    if(depth == 0 || checkers.getVictoryState() != INVALID)
        return checkers.getVictoryState()==INVALID?checkers.getBoardScore()-checkers.getPlayer()*moves/100.:
                checkers.getPlayer() == checkers.getVictoryState() ? Double.MAX_VALUE*checkers.getPlayer():
                        -Double.MAX_VALUE*checkers.getPlayer();
    List<Pair<Pair<Integer, Integer>, Pair<Integer, Integer>>> moves;
    if(absDepth == maxDepth)
        moves = (List<Pair<Pair<Integer, Integer>, Pair<Integer, Integer>>>) node.getValues().get("moves");
    else
        moves = checkers.getAllPlayerMoves();
    if(moves.isEmpty()) //no moves left? then this player loses
        return checkers.getPlayer() * -Double.MAX_VALUE;
    int j = 0;
    double score;
    for(Pair<Pair<Integer, Integer>, Pair<Integer, Integer>> i : moves){
        BitCheckers c = checkers.clone();
        c.movePiece(i.getFirst().getFirst(),i.getFirst().getSecond(),i.getSecond().getFirst(),i.getSecond().getSecond());
        int newDepth = c.getPlayer() == checkers.getPlayer() ? depth : depth - 1;
        double sign = c.getPlayer() == checkers.getPlayer()? -1 : 1;
        if(j++==0)
            score = -pvs(c,newDepth,absDepth-1,sign*-beta,sign*-alpha);
        else {
            score = -pvs(c,newDepth, absDepth-1,sign*-(alpha+1),sign*-alpha);
            if(alpha<score || score<beta)
                score = -pvs(c,newDepth,absDepth-1,sign*-beta,sign*-score);
        }
        if(absDepth == maxDepth) {
            double finalScore = score;
            for(Node n : node.getChildren())
                if(n.getData().equals(i)){
                    n.setValue(finalScore);
                    break;
                }
        }
        alpha = Math.max(alpha,score);
        if(alpha>=beta)
            break;
    }
    return alpha;
}

没有 alpha beta 修剪的跳棋很好，但不是很好。我知道使用 alpha-beta 的工作版本可能真的很棒。请帮助修复我的 alpha-beta 修剪。

我知道它应该给出相同的结果，我的问题是为什么我的实现没有给出相同的结果？

为了确认它应该给出相同的结果，我做了一个快速测试类实现。

public class MinimaxAlphaBetaTest {
    public static void main(String[] args) {
        Node<Double,Double> parent = new Node<>(0.,0.);
        int depth = 10;
        createTree(parent,depth);
        Timer t = new Timer().start();
        double ab = alphabeta(parent,depth+1,Double.NEGATIVE_INFINITY,Double.POSITIVE_INFINITY,true);
        t.stop();
        System.out.println("Alpha Beta: "+ab+", time: "+t.getTime());
        t = new Timer().start();
        double mm = minimax(parent,depth+1,true);
        t.stop();
        System.out.println("Minimax: "+mm+", time: "+t.getTime());
        t = new Timer().start();
        double pv = pvs(parent,depth+1,Double.NEGATIVE_INFINITY,Double.POSITIVE_INFINITY,1);
        t.stop();
        System.out.println("PVS: "+pv+", time: "+t.getTime());
        if(ab != mm)
            System.out.println(ab+"!="+mm);
    }

    public static void createTree(Node n, int depth){
        if(depth == 0) {
            n.getChildren().add(new Node<>(0.,(double) randBetween(1, 100)));
            return;
        }
        for (int i = 0; i < randBetween(2,10); i++) {
            Node nn = new Node<>(0.,0.);
            n.getChildren().add(nn);
            createTree(nn,depth-1);
        }
    }

    public static Random r = new Random();
    public static int randBetween(int min, int max){
        return r.nextInt(max-min+1)+min;
    }

    public static double pvs(Node<Double,Double> node, int depth, double alpha, double beta, int color){
        if(depth == 0 || node.getChildren().isEmpty())
            return color*node.getValue();
        int i = 0;
        double score;
        for(Node<Double,Double> child : node.getChildren()){
            if(i++==0)
                score = -pvs(child,depth-1,-beta,-alpha,-color);
            else {
                score = -pvs(child,depth-1,-alpha-1,-alpha,-color);
                if(alpha<score || score<beta)
                    score = -pvs(child,depth-1,-beta,-score,-color);
            }
            alpha = Math.max(alpha,score);
            if(alpha>=beta)
                break;
        }
        return alpha;
    }

    public static double alphabeta(Node<Double,Double> node, int depth, double alpha, double beta, boolean maximizingPlayer){
        if(depth == 0 || node.getChildren().isEmpty())
            return node.getValue();
        double v = maximizingPlayer ? Double.NEGATIVE_INFINITY : Double.POSITIVE_INFINITY;
        for(Node<Double,Double> child : node.getChildren()){
            if(maximizingPlayer) {
                v = Math.max(v, alphabeta(child, depth - 1, alpha, beta, false));
                alpha = Math.max(alpha, v);
            }else {
                v = Math.min(v,alphabeta(child,depth-1,alpha,beta,true));
                beta = Math.min(beta,v);
            }
            if(beta <= alpha)
                break;
        }
        return v;
    }

    public static double minimax(Node<Double,Double> node, int depth, boolean maximizingPlayer){
        if(depth == 0 || node.getChildren().isEmpty())
            return node.getValue();
        double v = maximizingPlayer ? Double.NEGATIVE_INFINITY : Double.POSITIVE_INFINITY;
        for(Node<Double,Double> child : node.getChildren()){
            if(maximizingPlayer)
                v = Math.max(v,minimax(child,depth-1,false));
            else
                v = Math.min(v,minimax(child,depth-1,true));
        }
        return v;
    }
}

这确实给出了我预期的 alpha-beta 和 pvs 大致相同的速度(pvs 较慢，因为 child 是随机顺序)并产生与 minimax 相同的结果。这证明算法是正确的，但无论出于何种原因，我对它们的实现都是错误的。

Alpha Beta: 28.0, time: 25.863126 milli seconds
Minimax: 28.0, time: 512.6119160000001 milli seconds
PVS: 28.0, time: 93.357653 milli seconds

Source Code for Checkers implementation

Pseudocode for pvs

Pseudocode for alpha beta i'm following

Full Souce Code for the Tick Tack Toe Implementation

最佳答案

我认为您可能误解了 AB 剪枝。

AB 剪枝应该会给你带来与 MinMax 相同的结果，它只是一种不沿着某些分支向下移动的方法，因为你知道这样做会比你检查过的另一个移动更糟糕，当你有大树时，它会有所帮助。

此外，如果不使用启发式算法并中断搜索，MinMax 将始终是不可战胜的，因为您已经计算了到达每个终止状态的每条可能路径。所以我预计 AB 修剪和 MinMax 都是无与伦比的，所以我认为你的 AB 修剪有问题。如果您的 minmax 是不可战胜的，那么您使用 AB 剪枝的方法也应该是不可战胜的。

关于java - Alpha beta 修剪没有产生好的结果，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/48675970/

文章推荐： algorithm - 我们如何比较理论和实践中的执行时间

文章推荐： java - 为矩阵的每个深度级别返回哈希

文章推荐： c# - 如何检查数组中的所有概率

文章推荐： algorithm - TopCoder 中的示例违反了约束

python - beta 二项分布和 beta 分布的 alpha 和 beta 估计
我正在尝试将我的数据拟合为 beta 二项式分布并估计 alpha 和 beta 形状参数。对于此分布，先验取自 beta 分布。 Python 没有适用于 beta-binomial 的函数，但它适
reactjs - 如果需要 beta beta 功能，则将 Beta 版本的 Material-UI 用于包含大量内容的长期 React Web 应用程序
正在使用 Material-UI 的测试版对于具有大量内容的 React 网络应用程序的长期愿景，如果必须使用 beta 功能并且使用遵循 Google Material 设计指南的 UI 库是一个好
python - beta in alpha beta 搜索
嗨!我正在尝试实现 alpha-beta 搜索，但我首先想了解其背后的所有逻辑，而不仅仅是使用某种伪代码来实现它。我的理解是:一个白人玩家下了一步棋(我们称它为 move1)。第一步被保存为 alp
ios - Xcode 8 beta 2/IOS10 beta 2/WatchOS 3 beta 2 - 配对的 Apple Watch 没有符号？
将应用程序升级到 watchOS 3 beta 2 后，我无法在 Apple Watch 上运行我的应用程序。最佳答案遇到了同样的问题。我使用模拟器构建并运行该应用程序以确保该应用程序正常，然后再
ios - 应用程序卡在带有 Xcode 11 beta 的 iOS 13 beta 模拟器上，但在带有 Xcode 10 的 iOS 13 beta 模拟器上运行良好
我遇到了一个很奇怪的问题。在应用程序启动时，我调用 API 来获取 token 。它在 iOS 12 之前运行良好。但是，在 iOS 13 beta 版本上，没有调用完成关闭并且应用程序不断积累内存并
android - Android 应用程序的 Beta 测试人员如何在同一设备上同时安装生产和 Beta 应用程序？
我需要我的 beta 测试人员有 beta 应用程序让他们测试它，但同时他们必须让生产应用程序在生产中工作。问题是，如果他们成为 beta 测试者，似乎只能从 Google Play 获得 beta
android - Android 应用程序的 Beta 测试人员如何在同一设备上同时安装生产和 Beta 应用程序？
我需要我的 beta 测试人员有 beta 应用程序让他们测试它，但同时他们必须让生产应用程序在生产中工作。问题是，如果他们成为 beta 测试者，似乎只能从 Google Play 获得 beta
ios - 删除 WatchOS Beta 配置文件 - 仍通过软件更新接收 Beta
我的 iPhone 6s 和第一代 Apple Watch 都注册了开发者测试版。我从两台设备中删除了 beta 配置文件。 watch 现在在 OS 3.0 (14S326) 上，但在两个设备多次
ios - 无法再向我的 Beta 测试人员更新应用 Beta 版(临时)？
我有一个应用程序，我的客户会在每个主要开发步骤中通过分布式临时*(邮寄 x.ipa + x.mobileprovision 文件)持续审查。在 8 月 mobileprovisioning 配置文件
ios - 织物 Beta 测试 : I can't install beta app
我正在使用 fabric 进行 Beta 测试。我从 Crashlytics 收到了有关 Beta 版应用程序的通知。标题为“XXX v1.0.0(5)已准备好测试”。我希望我能在安装页面上看到一
ruby - alpha-beta 修剪方法有问题，返回 beta？也许我不明白这是怎么回事
它不应该返回一个 DRAW 吗？ def alphabeta(alpha, beta, player) best_score = -INFINITY if not self.h
python-3.x - 如何在 F-beta 分数中选择 beta
我正在使用网格搜索来优化适合平衡数据集的随机森林的超参数，我正在为选择哪个模型评估指标而苦恼。考虑到这个问题的现实背景，假阴性比假阳性代价更高。我最初尝试优化召回率，但最终得到了非常多的误报。我的解决
r - 是否有 R 函数用于从 "beta + beta*t"这样的字符串创建公式？
我正在运行交叉验证算法来找到最适合每天变化的数据的多项式。我想找到一种在简单图中显示拟合的不麻烦的方法，而不必每次都手动编写整个回归公式和绘图的 beta 系数。对于回归公式，求解很简单，我使用 sp
r - 是否有 R 函数用于从 "beta + beta*t"这样的字符串创建公式？
我正在运行交叉验证算法来找到最适合每天变化的数据的多项式。我想找到一种在简单图中显示拟合的不麻烦的方法，而不必每次都手动编写整个回归公式和绘图的 beta 系数。对于回归公式，求解很简单，我使用 sp
ios - 我可以为Xcode 11 beta 5下载iOS 13 beta 6模拟器吗？
我有最新的Xcode 11 beta 5，其中包括iOS 13 beta 5模拟器。今天，苹果发布了iOS 13 beta 6，但没有发布新的Xcode 11 beta。我可以以某种方式下载/更新X
javascript - 异步模块定义 : difference between beta. verb() 并要求 ("beta").verb()
我正在研究来自 wiki.commonjs.org 的异步模块定义我想知道这段代码的含义是什么。特别是，我的问题是: return beta.verb();和return require("beta
perl - 我如何使用 beta Perl 脚本中的 beta Perl 模块？
如果我的 Perl 代码有生产代码位置和“测试版”代码位置(例如，生产 Perl 代码在 /usr/code/scripts 中，BETA Perl 代码在 /usr/code/beta/script
algorithm - Alpha Beta 剪枝，alpha 等于或大于 beta。为什么等于？
虽然我了解 MiniMax 树和 alpha-beta 修剪概念，但我不明白为什么在许多(例如维基百科)有关 alpha-beta 修剪的资源中存在像 α >= β 这样的条件。具体来说，equals
machine-learning - 使用越来越多的反馈更新 Beta 发行版的 alpha 和 beta 参数
我正在根据我大学项目的客户反馈对在线内容进行排名。为此，我将每个内容与先前的 alpha 和 beta 参数相关联，并根据我得到的反馈更新这些内容。随着我模拟越来越多的试验，alpha 和 beta
xcode9-beta - Xcode 9 Beta 2 失败 - DVTPlugInErrorDomain 插件加载失败
从 Apple 网站下载并安装 Xcode 9 beta 2 后，它无法在 Sierra OS X 版本 10.12.5 上启动，并报告以下错误: Process: Xcode [4789] Path

塔克拉玛干

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城