单项选择题
()就是程序或智能体(agent)通过与环境不断地进行交互学习完成从环境到动作的映射,学习的目标就是使累计回报最大化。
A.监督学习
B.非监督学习
C.强化学习
D.非强化学习
点击查看答案

单项选择题
A.监督学习
B.非监督学习
C.强化学习
D.非强化学习
微信扫一扫,加关注免费搜题