# 强化学习环境


强化学习的环境是智能体进行学习和决策的场所,它包括智能体与外部世界的交互,智能体从中获得观测和奖励,从而学习适应环境的行为策略。

强化学习工具箱提供数个预定义环境可供使用,也可以使用自定义函数来创建自定义环境。

以下是强化学习环境的主要组成部分和一些常见概念:

  • 状态(State):环境在每个时间步骤中都会向智能体提供一个状态,用于描述环境当前的情况。状态可能是完整的,也可能是局部的观测。在很多情况下,状态是一个特征数组,包含了智能体需要了解的环境信息;

  • 动作(Action):智能体可以在每个时间步骤中执行一个动作,影响环境的转变。动作可以是连续的,也可以是离散的。例如,小车可以选择向左、向右移动,或者施加不同力的动作;

  • 奖励(Reward):在智能体执行一个动作后,环境会返回一个奖励信号,用于评估该动作的好坏。奖励可以是即时的,也可以是累积的。智能体的目标是通过选择动作来最大化累积奖励;

  • 终止条件(Termination Criteria):训练或评估的终止条件,例如达到某种特定状态。

# 网格世界与马尔可夫决策环境

网格世界与马尔可夫决策环境。

网格世界与马尔可夫决策环境

函数名 简介
createGridWorld 创建二维网格世界
rlMDPEnv 马尔可夫决策过程模型
createMDP 创建马尔可夫决策过程模型

# 环境信息

获取环境信息。

环境信息

函数名 简介
getActionInfo 获取环境动作信息
getStateInfo 获取环境状态信息
ActionDims 动作维度
ActionRange 动作范围
ActionSize 动作形状
StateDims 状态维度
StateSize 状态形状

# 创建默认环境

创建默认环境。

创建默认环境

函数名 简介
BuildEnv 创建环境

# 环境函数

环境函数。

环境函数

函数名 简介
Reset 环境重置
Step 环境执行
validateEnvironment 环境验证
CloseEnv 环境关闭

# 话题

创建自定义环境

使用 julia 或 python 在本地创建自定义环境。