# 策略函数与值函数
强化学习智能体大都由执行者(actor)和评价者(critic)构成,actor 学习执行动作的策略,critic 学习对价值的估计。
# 创建行动者和评价者
创建行动者和评价者
创建行动者和评价者
| 函数名 | 简介 |
|---|---|
| rlDiscreteCategoricalActor | 离散分类执行者 |
| rlContinuousDeterministicActor | 连续确定性执行者 |
| rlContinuousGaussianActor | 连续高斯执行者 |
| rlValueFunction | 值函数 |
| rlQValueFunction | Q 值函数 |
| rlVectorQValueFunction | 向量 Q 值函数 |
# 获取与设置行动者和评价者
获取与设置行动者和评价者。
# 获取与设置近似模型与可学习参数
获取与设置近似模型与可学习参数。
获取与设置近似模型与可学习参数
| 函数名 | 简介 |
|---|---|
| getModel | 获取模型 |
| setModel | 设置模型 |
| getLearnableParameters | 获取可学习参数 |
| setLearnableParameters | 设置可学习参数 |
# 创建策略对象
创建强化学习策略对象。
创建强化学习策略对象
| 函数名 | 简介 |
|---|---|
| rlEpsilonGreedyPolicy | ε 贪心策略对象 |
| rlAdditiveNoisePolicy | 噪声增加策略对象 |
| rlStochasticActorPolicy | 随机执行者策略对象 |
# 获取价值
获取价值。
获取价值
| 函数名 | 简介 |
|---|---|
| getMaxQValue | 获取最大 Q 值 |
| getValue | 获取价值 |
# 神经网络
神经网络。
神经网络
| 函数名 | 简介 |
|---|---|
| BuildDefaultNet | 创建默认网络 |
| BuildNetFromLayers | 自网络层创建神经网络 |