判断题

强化学习的学习目标是选择能够获取最大收益的状态到动作的映射。

【参考答案】

正确

(↓↓↓ 点击‘点击查看答案’看答案解析 ↓↓↓)