题目内容
(请给出正确答案)
[单选题]
关于强化学习,以下说法正确的是:
A.ε-greedy策略是一种平衡“探索”和“开发”的方法
B.“开发”表示随机地采取某个动作,以便于尝试各种结果;“探索”表示采取当前认为最优的动作,以便于进一步优化评估当前认为最优的动作的值
C.主体和环境之间交互的要素有状态、动作、回报
D.在强化学习的过程中,学习率α越大,表示保持旧的学习结果的比例越大
答案
ε-greedy策略是一种平衡“探索”和“开发”的方法;主体和环境之间交互的要素有状态、动作、回报
如搜索结果不匹配,请 联系老师 获取答案