欢迎来到牛牛题库网 牛牛题库官网
logo
全部科目 > 大学试题 > 计算机科学 > 人工智能

单项选择题

强化学习中近端策略优化(ProximalPolicyOptimization-PPO)的目的是:()。

A.减少学习过程中的方差
B.加速模型的收敛速度
C.优化策略的稳定性
D.提高策略的探索能力

点击查看答案&解析
微信小程序免费搜题
微信扫一扫,加关注免费搜题

微信扫一扫,加关注免费搜题