Java迷宫解决和强化学习-6ren

Java迷宫解决和强化学习

转载作者：行者123 更新时间：2023-11-30 07:27:15

我正在编写代码来自动模拟 Theseus 和 Minoutaur 的 Action ，如这个逻辑游戏中所示； http://www.logicmazes.com/theseus.html

对于每个迷宫，我为它提供迷宫的位置，以及哪些位置可用，例如从位置 0 开始，下一个状态是 1,2 或保持在 0。我运行一个 QLearning 实例化，它计算了忒修斯到达逃离迷宫假设没有牛头怪。然后介绍了牛头怪。忒修斯向导出迈出第一步，不可避免地被捕获，导致最佳路径重新加权。在游戏中使用迷宫 3 作为测试，这种方法导致忒修斯不确定地在中间线上上下移动，因为这是唯一没有杀死它的 Action 。

根据最近几天在这里收到的建议，我调整了我的代码以将状态视为给定时间的 thesesus 和牛头怪的位置。当忒修斯移动时，状态将被添加到“访问状态”列表中。通过将建议移动产生的状态与访问状态列表进行比较，我能够确保忒修斯不会做出会导致以前的状态。

问题是在某些情况下我需要能够重新访问。例如，以迷宫 3 为例，每移动一次忒修斯，牛头怪移动 2 倍。忒修斯移动 4 -> 5，状态添加(t5，m1)。米诺移动 1->5。忒修斯被捕获，重置。 4-> 5 是一个糟糕的棋步，所以忒修斯走 4->3，轮到米诺 catch 了。现在(t5，m1)和(t3 m1)都在访问列表中

发生的情况是初始状态的所有可能状态都被添加到不访问列表中，这意味着我的代码无限循环并且无法提供解决方案。

public void move()
{
    int randomness =10;
    State tempState = new State();
    boolean rejectMove = true;
    int keepCurrent = currentPosition;
    int keepMinotaur = minotaurPosition;

    previousPosition = currentPosition;
    do
    {
        minotaurPosition = keepMinotaur;
        currentPosition = keepCurrent;
        rejectMove = false;

        if (states.size() > 10)
        {
            states.clear();
        }


        if(this.policy(currentPosition) == this.minotaurPosition )
        {
            randomness = 100;
        }

        if(Math.random()*100 <= randomness)
        {
            System.out.println("Random move");
            int[] actionsFromState = actions[currentPosition];
            int max = actionsFromState.length;
            Random r = new Random();
            int s =  r.nextInt(max);    

            previousPosition = currentPosition;
            currentPosition = actions[currentPosition][s];
        }
        else
        {
            previousPosition = currentPosition;
            currentPosition = policy(currentPosition);
        }

        tempState.setAttributes(minotaurPosition, currentPosition);
        randomness = 10;    

        for(int i=0; i<states.size(); i++)
        {
            if(states.get(i).getMinotaurPosition() == tempState.getMinotaurPosition()  &&  states.get(i).theseusPosition == tempState.getTheseusPosition())
            {

                rejectMove = true;

                changeReward(100);

            }
        }

    }
    while(rejectMove == true);

    states.add(tempState);
}

以上是忒修斯的移动方法；偶尔显示它暗示随机移动

最佳答案

这里的问题是“永远不要访问你以前去过的状态”方法和你的“强化学习”方法之间的差异。当我推荐“永远不要访问你以前去过的状态”方法时，我假设你正在使用回溯:一旦忒修斯被捕获，你就会将堆栈展开到他做出非强制选择的最后一个地方，然后尝试不同的选项。 (也就是说，我假设您使用的是状态空间的简单深度优先搜索。)在这种方法中，没有任何理由去访问您之前访问过的状态。

对于您的“强化学习”方法，您需要在每次抓到 Theseus 时完全重置迷宫，您需要改变它。我想您可以将“永远不要访问您以前去过的州”规则更改为双管齐下的规则:

永远不要访问您在迷宫运行期间所处的状态。 (这是为了防止无限循环。)
不喜欢访问您在 Theseus 被捕获的迷宫中运行时所处的状态。 (这是“学习”部分:如果以前的选择效果不佳，则应减少选择次数。)

关于Java迷宫解决和强化学习，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/9862176/

文章推荐： UTF-8 字符串的 java.lang.NumberFormatException

文章推荐： javascript - 如何让

以慢动作出现

文章推荐： Java，多线程类，配置，避免同步

c# - 学习 C# 有助于或阻碍 VB.NET 学习
关闭。这个问题是opinion-based .它目前不接受答案。想要改进这个问题？更新问题，以便 editing this post 可以用事实和引用来回答它. 关闭 9 年前。 Improve
学习.NET8MiniApis入门
介绍篇什么是MiniApis？ MiniApis的特点和优势 MiniApis的应用场景环境搭建系统要求安装MiniApis 配置开发环境基础概念 MiniApis架构概述
Javascript(学习)
我正在从“JavaScript 圣经”一书中学习 javascript，但我遇到了一些困难。我试图理解这段代码: function checkIt(evt) { evt = (evt) ? e
String.intern() 学习
package com.fastone.www.javademo.stringintern; /** * * String.intern()是一个Native方法， * 它的作用是：如果字
macos - 学习 AppleScript
您会推荐哪些资源来学习 AppleScript。我使用具有 Objective-C 背景的传统 C/C++。我也在寻找有关如何更好地开发和从脚本编辑器获取更快文档的技巧。示例提示是“查找要编写脚本的
java - 学习 OpenCMS
关闭。这个问题不满足Stack Overflow guidelines .它目前不接受答案。想改善这个问题吗？更新问题，使其成为 on-topic对于堆栈溢出。 4年前关闭。 Improve thi
extjs - 学习 ExtJS4
关闭。这个问题不满足Stack Overflow guidelines .它目前不接受答案。想改善这个问题吗？更新问题，使其成为 on-topic对于堆栈溢出。 7年前关闭。 Improve thi
f# - 学习 F#
关闭。这个问题不符合 Stack Overflow guidelines 。它目前不接受答案。想改善这个问题吗？更新问题，以便堆栈溢出为 on-topic。 6年前关闭。 Improve this
flutter - 学习 flutter
我是塞内加尔的阿里。我今年60岁(也许这是我真正的问题-笑脸!!!)。我正在学习Flutter和Dart。今天，我想使用给定数据模型的列表(它的名称是Mortalite，请参见下面的代码)。我尝试
powershell - 学习……真的什么都行
关闭。这个问题是off-topic .它目前不接受答案。想改进这个问题？ Update the question所以它是on-topic对于堆栈溢出。 9年前关闭。 Improve this que
cappuccino - 学习 Cappuccino
学习 Cappuccino 的最佳来源是什么？我从事“传统”网络开发，但我对这个新框架非常感兴趣。请注意，我对 Objective-C 毫无了解。最佳答案如上所述，该网站是一个好地方，但还有一些其
java - 学习 HashMap
我正在学习如何使用 hashMap，有人可以检查我编写的这段代码并告诉我它是否正确吗？这个想法是有一个在公司工作的员工列表，我想从 hashMap 添加和删除员工。 public class Staf
jQuery CoffeeScript - 学习
我正在尝试将 jQuery 与 CoffeScript 一起使用。我按照博客中的说明操作，指示使用 $ -> 或 jQuery -> 而不是 .ready() 。我玩了一下代码，但我似乎无法理解我出错
javascript - PHP传递参数给新的字符串(学习)
还在学习，还有很多问题，所以这里有一些。我正在进行 javascript -> PHP 转换，并希望确保这些做法是正确的。是$dailyparams->$calories = $calories;一条
MySQL 使用临时表(学习)
我目前正在学习 SQL，以便从我们的 Magento 数据库制作一个简单的 RFM 报告，我目前可以通过导出两个查询并将它们粘贴到 Excel 模板中来完成此操作，我想摆脱 Excel 模板。我认为
Javascript > PHP (学习)
我知道我很可能会因为这个问题而受到抨击，但没有人问，我求助于你。这是否是一个正确的 javascript > php 转换 - 在我开始不良做法之前，我想知道这是否是解决此问题的正确方法。 JavaS
ruby - 学习/平铺的资源
除了 Ruby-Doc 之外，哪些来源最适合获取一些示例和教程，尤其是关于 Ruby 中的 Tk/Tile？我发现自己更正常了 http://www.tutorialspoint.com/ruby/r
Python 学习。为什么我只在第一次收到警告？
我只在第一次收到警告。这正常吗？ >>> cv=LassoCV(cv=10).fit(x,y) C:\Python27\lib\site-packages\scikit_learn-0.14.1-py
java - 学习/复习Java
按照目前的情况，这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持，但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开，visit the
c# - 学习.NET
As it currently stands, this question is not a good fit for our Q&A format. We expect answers to be

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

Java迷宫解决和强化学习