强化学习和在线学习有什么区别?各自有什么特点?
强化学习(Reinforcement Learning,RL)是实现强人工智能的方法之一,在智能体(Agent)与环境的交互过程中,通过学习策略(Policy)以最大化回报或实现特定的目标。在实际应用场景中,RL 面临一个重要的问题:agent 无法得到足够多的、有效的奖励(Reward),或者说 agent 得到的是稀疏奖励(Sparse Reward),进而导致 agent 学习缓慢甚至无法进行有效学习。强化学习和在线学习有什么区别?各自有什么特点?
监督式学习就好比你在学习的时候,有一个导师在旁边指点,他知道怎么是对的怎么是错的,但在 很 多实际问题中,例如游戏中,这种有成千上万种组合方式的情况,不可能有一个导师知道所有可能的 结 果。 而这时,强化学习会在没有任何标签的情况下,通过先尝试做出一些行为得到一个结果,通过这个 结 果是对还是错的反馈,调整之前的行为,就这样不断的调整,算法能够学习到在什么样的情况下选择 什 么样的行为可以得到最好的结果。
两种学习方式都会学习出输入到输出的一个映射,监督式学习可以告诉算法什么样的输入对应着什 么 样的输出,强化学习学习的是给机器的反馈 (reward function),即用来判断这个行为是好是坏。另外强 化学习的结果反馈有延时,有时候可能需要走了很多步以后才知道以前的某一步的选择是好还是坏, 而 监督学习做了比较坏的选择会立刻反馈给算法。而且强化学习面对的输入总是在变化,每当算法做出一个行为,它影响下一次决策的输入,而监督 学 习的输入是独立同分布的。
以上就是格子匠为大家介绍的强化学习和在线学习有什么区别的相关内容,格子匠是专注在线教育解决方案的技术服务商。旗下拥有格子匠线上教学平台、格子电子书、格子商学院等产品和服务,致力于为中小型教育培训机构、企业、老师等有教学资源者提供平台、社群、运营等一站式在线教育技术解决方案。想体验格子匠在线教育系统的朋友可以在官网首页申请试用。