单项选择题

关于策略梯度的方法说法正确的是()。A、只适用于离散动作空间B、适用于连续动作空间C、策略梯度的方法与DQN中的目标函数一致D、策略梯度的方法通过Q值挑选动作