⋮

# 强化学习环境

强化学习的环境是智能体进行学习和决策的场所，它包括智能体与外部世界的交互，智能体从中获得观测和奖励，从而学习适应环境的行为策略。

强化学习工具箱提供数个预定义环境可供使用，也可以使用自定义函数来创建自定义环境。

以下是强化学习环境的主要组成部分和一些常见概念：

状态（State）：环境在每个时间步骤中都会向智能体提供一个状态，用于描述环境当前的情况。状态可能是完整的，也可能是局部的观测。在很多情况下，状态是一个特征数组，包含了智能体需要了解的环境信息；
动作（Action）：智能体可以在每个时间步骤中执行一个动作，影响环境的转变。动作可以是连续的，也可以是离散的。例如，小车可以选择向左、向右移动，或者施加不同力的动作；
奖励（Reward）：在智能体执行一个动作后，环境会返回一个奖励信号，用于评估该动作的好坏。奖励可以是即时的，也可以是累积的。智能体的目标是通过选择动作来最大化累积奖励；
终止条件（Termination Criteria）：训练或评估的终止条件，例如达到某种特定状态。

# 网格世界与马尔可夫决策环境

网格世界与马尔可夫决策环境。

网格世界与马尔可夫决策环境

函数名	简介
createGridWorld	创建二维网格世界
rlMDPEnv	马尔可夫决策过程模型
createMDP	创建马尔可夫决策过程模型

# 环境信息

获取环境信息。

环境信息

函数名	简介
getActionInfo	获取环境动作信息
getStateInfo	获取环境状态信息
ActionDims	动作维度
ActionRange	动作范围
ActionSize	动作形状
StateDims	状态维度
StateSize	状态形状

# 创建默认环境

创建默认环境。

创建默认环境

函数名	简介
BuildEnv	创建环境

# 环境函数

环境函数。

环境函数

函数名	简介
Reset	环境重置
Step	环境执行
validateEnvironment	环境验证
CloseEnv	环境关闭

# 话题

创建自定义环境

使用 julia 或 python 在本地创建自定义环境。

强化学习环境强化学习的环境是智能体进行学习和决策的场所，它包括智能体与外部世界的交互，智能体从中获得观测和奖励，从而学习适应环境的行为策略。强化学习工具箱提供数个预定义环境可供使用，也可以使用自定义函数来创建自定义环境。以下是强化学习环境的主要组成部分和一些常见概念：状态（State）：环境在每个时间步骤中都会向智能体提供一个状态，用于描述环境当前的情况。状态可能是完整的，也可能是局部的观测。在很多情况下，状态是一个特征数组，包含了智能体需要了解的环境信息；动作（Action）：智能体可以在每个时间步骤中执行一个动作，影响环境的转变。动作可以是连续的，也可以是离散的。例如，小车可以选择向左、向右移动，或者施加不同力的动作；奖励（Reward）：在智能体执行一个动作后，环境会返回一个奖励信号，用于评估该动作的好坏。奖励可以是即时的，也可以是累积的。智能体的目标是通过选择动作来最大化累积奖励；终止条件（Termination Criteria）：训练或评估的终止条件，例如达到某种特定状态。网格世界与马尔可夫决策环境网格世界与马尔可夫决策环境。网格世界与马尔可夫决策环境函数名简介 :--- :--- createGridWorld 创建二维网格世界 rlMDPEnv 马尔可夫决策过程模型 createMDP 创建马尔可夫决策过程模型环境信息获取环境信息。环境信息函数名简介 :--- :--- getActionInfo 获取环境动作信息 getStateInfo 获取环境状态信息 ActionDims 动作维度 ActionRange 动作范围 ActionSize 动作形状 StateDims 状态维度 StateSize 状态形状创建默认环境创建默认环境。创建默认环境函数名简介 :--- :--- BuildEnv 创建环境环境函数环境函数。环境函数函数名简介 :--- :--- Reset 环境重置 Step 环境执行 validateEnvironment 环境验证 CloseEnv 环境关闭话题创建自定义环境使用 julia 或 python 在本地创建自定义环境。