机器人走迷宫

欢迎来到机器人走迷宫!在这个游戏中,你将看到机器人如何通过尝试不同的动作来学习找到从起点到终点的最优路径。

游戏规则:

  • 机器人从绿色的起点开始
  • 目标是到达红色的终点
  • 紫色的格子是障碍物,不能通过
  • 机器人每走一步会获得-1的奖励
  • 到达终点会获得+100的奖励
  • 撞到障碍物会获得-10的惩罚
当前回合
0
总奖励
0
最优步数
-
学习进度
0%
训练日志
点击"开始训练"按钮开始学习过程

Q值表 (学习结果)

📚 强化学习原理

什么是强化学习?

强化学习是一种机器学习方法,智能体通过与环境交互,通过尝试不同的动作并获得奖励或惩罚来学习最优策略。

核心概念:

  • 智能体 (Agent): 学习的主体,在这个游戏中是机器人
  • 环境 (Environment): 智能体所处的世界,在这个游戏中是网格
  • 状态 (State): 智能体在环境中的位置
  • 动作 (Action): 智能体可以执行的操作(上、下、左、右)
  • 奖励 (Reward): 智能体执行动作后获得的反馈
  • 策略 (Policy): 智能体选择动作的规则

Q学习算法:

Q学习是一种值迭代算法,通过学习每个状态-动作对的价值(Q值)来找到最优策略。Q值表示在某个状态下执行某个动作的预期未来奖励。

学习过程:

  1. 智能体从起点开始
  2. 根据当前策略选择一个动作
  3. 执行动作,观察新状态和奖励
  4. 更新Q值表
  5. 重复步骤2-4,直到到达终点
  6. 多次重复整个过程,不断改进策略