单项选择题

()就是程序或智能体(agent)通过与环境不断地进行交互学习完成从环境到动作的映射,学习的目标就是使累计回报最大化。

A.监督学习
B.非监督学习
C.强化学习
D.非强化学习