# 策略函数与值函数


强化学习智能体大都由执行者(actor)和评价者(critic)构成,actor 学习执行动作的策略,critic 学习对价值的估计。

# 创建行动者和评价者

创建行动者和评价者

创建行动者和评价者

函数名 简介
rlDiscreteCategoricalActor 离散分类执行者
rlContinuousDeterministicActor 连续确定性执行者
rlContinuousGaussianActor 连续高斯执行者
rlValueFunction 值函数
rlQValueFunction Q 值函数
rlVectorQValueFunction 向量 Q 值函数

# 获取与设置行动者和评价者

获取与设置行动者和评价者。

获取与设置行动者和评价者

函数名 简介
getActor 获取执行者
getCritic 获取评价者
setActor 设置执行者
setCritic 设置评价者

# 获取与设置近似模型与可学习参数

获取与设置近似模型与可学习参数。

获取与设置近似模型与可学习参数

函数名 简介
getModel 获取模型
setModel 设置模型
getLearnableParameters 获取可学习参数
setLearnableParameters 设置可学习参数

# 创建策略对象

创建强化学习策略对象。

创建强化学习策略对象

函数名 简介
rlEpsilonGreedyPolicy ε 贪心策略对象
rlAdditiveNoisePolicy 噪声增加策略对象
rlStochasticActorPolicy 随机执行者策略对象

# 获取价值

获取价值。

获取价值

函数名 简介
getMaxQValue 获取最大 Q 值
getValue 获取价值

# 神经网络

神经网络。

神经网络

函数名 简介
BuildDefaultNet 创建默认网络
BuildNetFromLayers 自网络层创建神经网络