题目内容
(请给出正确答案)
[单选题]
下列关于强化学习的说法不正确的是
A.Policy based的强化学习类型要明显优于Value based和Action based的方法
B.强化学习中的Agent有明确的目标用于指导自己的行为
C.Agent的模型参数是根据环境的反馈来更新
D.电子竞技和AI游戏中
答案
Policy based的强化学习类型要明显优于Value based和Action based的方法
如搜索结果不匹配,请 联系老师 获取答案
A.Policy based的强化学习类型要明显优于Value based和Action based的方法
B.强化学习中的Agent有明确的目标用于指导自己的行为
C.Agent的模型参数是根据环境的反馈来更新
D.电子竞技和AI游戏中
第2题
第3题
A.强化学习(Reinforcement Learning, RL) 是一个独立的方法,不是一种机器学习的模式,或者说不是一种思路
B.特征迁移:估计任务A和B之间的“差距”,设计一个变换方程,将任务A的数据转换为任务B的数据,再进行训练。
C.模型迁移:使用任务A训练得到的模型,经过某种变换,直接应用于任务B
D.强化学习认为,计算机单纯通过感知环境,与环境交互,并且从交互中获得评价反 馈,就可以适应所处的环境。
第6题
A.ε-greedy策略是一种平衡“探索”和“开发”的方法
B.“开发”表示随机地采取某个动作,以便于尝试各种结果;“探索”表示采取当前认为最优的动作,以便于进一步优化评估当前认为最优的动作的值
C.主体和环境之间交互的要素有状态、动作、回报
D.在强化学习的过程中,学习率α越大,表示保持旧的学习结果的比例越大
为了保护您的账号安全,请在“赏学吧”公众号进行验证,点击“官网服务”-“账号验证”后输入验证码“”完成验证,验证成功后方可继续查看答案!