单项选择题
强化学习中近端策略优化(ProximalPolicyOptimization-PPO)的目的是:()。
A.减少学习过程中的方差
B.加速模型的收敛速度
C.优化策略的稳定性
D.提高策略的探索能力
点击查看答案&解析

单项选择题
A.减少学习过程中的方差
B.加速模型的收敛速度
C.优化策略的稳定性
D.提高策略的探索能力
微信扫一扫,加关注免费搜题