# 强化学习环境
强化学习的环境是智能体进行学习和决策的场所,它包括智能体与外部世界的交互,智能体从中获得观测和奖励,从而学习适应环境的行为策略。
强化学习工具箱提供数个预定义环境可供使用,也可以使用自定义函数来创建自定义环境。
以下是强化学习环境的主要组成部分和一些常见概念:
状态(State):环境在每个时间步骤中都会向智能体提供一个状态,用于描述环境当前的情况。状态可能是完整的,也可能是局部的观测。在很多情况下,状态是一个特征数组,包含了智能体需要了解的环境信息;
动作(Action):智能体可以在每个时间步骤中执行一个动作,影响环境的转变。动作可以是连续的,也可以是离散的。例如,小车可以选择向左、向右移动,或者施加不同力的动作;
奖励(Reward):在智能体执行一个动作后,环境会返回一个奖励信号,用于评估该动作的好坏。奖励可以是即时的,也可以是累积的。智能体的目标是通过选择动作来最大化累积奖励;
终止条件(Termination Criteria):训练或评估的终止条件,例如达到某种特定状态。
# 网格世界与马尔可夫决策环境
网格世界与马尔可夫决策环境。
网格世界与马尔可夫决策环境
| 函数名 | 简介 |
|---|---|
| createGridWorld | 创建二维网格世界 |
| rlMDPEnv | 马尔可夫决策过程模型 |
| createMDP | 创建马尔可夫决策过程模型 |
# 环境信息
获取环境信息。
环境信息
| 函数名 | 简介 |
|---|---|
| getActionInfo | 获取环境动作信息 |
| getStateInfo | 获取环境状态信息 |
| ActionDims | 动作维度 |
| ActionRange | 动作范围 |
| ActionSize | 动作形状 |
| StateDims | 状态维度 |
| StateSize | 状态形状 |
# 创建默认环境
创建默认环境。
创建默认环境
| 函数名 | 简介 |
|---|---|
| BuildEnv | 创建环境 |
# 环境函数
环境函数。
环境函数
| 函数名 | 简介 |
|---|---|
| Reset | 环境重置 |
| Step | 环境执行 |
| validateEnvironment | 环境验证 |
| CloseEnv | 环境关闭 |
# 话题
使用 julia 或 python 在本地创建自定义环境。