在强化学习中,主体和环境之间交互的要素有
A.动作
B.状态
C.强化
D.回报
![](https://lstatic.shangxueba.com/sxbcn/h5/images/tips_org.png)
第2题
A.ε-greedy策略是一种平衡“探索”和“开发”的方法
B.“开发”表示随机地采取某个动作,以便于尝试各种结果;“探索”表示采取当前认为最优的动作,以便于进一步优化评估当前认为最优的动作的值
C.主体和环境之间交互的要素有状态、动作、回报
D.在强化学习的过程中,学习率α越大,表示保持旧的学习结果的比例越大
第3题
A.ε-greedy策略是一种平衡“探索”和“开发”的方法
B.“开发”表示随机地采取某个动作,以便于尝试各种结果;“探索”表示采取当前认为最优的动作,以便于进一步优化评估当前认为最优的动作的值
C.主体和环境之间交互的要素有状态、动作、回报
D.在强化学习的过程中,学习率α越大,表示保持旧的学习结果的比例越大
第4题
A.ε-greedy策略是一种平衡“探索”和“开发”的方法
B.“开发”表示随机地采取某个动作,以便于尝试各种结果;“探索”表示采取当前认为最优的动作,以便于进一步优化评估当前认为最优的动作的值
C.主体和环境之间交互的要素有状态、动作、回报
D.在强化学习的过程中,学习率α越大,表示保持旧的学习结果的比例越大
第5题
A.ε-greedy策略是一种平衡“探索”和“开发”的方法
B.“开发”表示随机地采取某个动作,以便于尝试各种结果;“探索”表示采取当前认为最优的动作,以便于进一步优化评估当前认为最优的动作的值
C.主体和环境之间交互的要素有状态、动作、回报
D.在强化学习的过程中,学习率α越大,表示保持旧的学习结果的比例越大
第6题
A.ε-greedy策略是一种平衡“探索”和“开发”的方法
B.“开发”表示随机地采取某个动作,以便于尝试各种结果;“探索”表示采取当前认为最优的动作,以便于进一步优化评估当前认为最优的动作的值
C.主体和环境之间交互的要素有状态、动作、回报
D.在强化学习的过程中,学习率α越大,表示保持旧的学习结果的比例越大
第7题
A.强化学习(Reinforcement Learning, RL) 是一个独立的方法,不是一种机器学习的模式,或者说不是一种思路
B.特征迁移:估计任务A和B之间的“差距”,设计一个变换方程,将任务A的数据转换为任务B的数据,再进行训练。
C.模型迁移:使用任务A训练得到的模型,经过某种变换,直接应用于任务B
D.强化学习认为,计算机单纯通过感知环境,与环境交互,并且从交互中获得评价反 馈,就可以适应所处的环境。
为了保护您的账号安全,请在“赏学吧”公众号进行验证,点击“官网服务”-“账号验证”后输入验证码“”完成验证,验证成功后方可继续查看答案!