无需调控而胜任不同任务 这种AI更接近人类思考方式

 人工智能技术     |      2019-12-03 18:06

导读:纽约大学心理学和认知科学教授马库斯(Marcus)最近赶上了人工智能公司的“深度思维”(DeepMind)。最近在推特上质疑了美国通用人工智能研究机构OpenAI的魔方操纵器后,他最近就

纽约大学心理学和认知科学教授马库斯(Marcus)最近赶上了人工智能公司的“深度思维”(DeepMind)。最近在推特上质疑了美国通用人工智能研究机构OpenAI的魔方操纵器后,他最近就星际争霸2的新“深度思考”代理“阿尔法星”(AlphaStar)进化版本提出了六大问题。这一次,他的问题点不是游戏本身的表现,而是指向一个更高的层次:未来一般智力研究的意义。

近年来最酷的结果来自强化学习

这次由OpenAI推出的魔方机器人(Rubik's Cube Robot)不使用专业算法来解决特定的任务(如果你改变任务,你需要重新编程)。相反,它通过某种学习方法训练机器人,这样机器人就有能力解决像人手这样的问题。然而,马库斯认为对这一成就的描述具有误导性,更恰当的描述应该是“用强化学习操纵魔方”或“用灵巧的机器人手操纵物体的进展”。

“马库斯过于强调‘利用强化学习操纵魔方’,有点吹毛求疵。事实上,OpenAI Rubik魔方机器人和“深度思考”发布的“星际争霸2”的“阿尔法星”进化版本都使用了深度强化学习技术。深度强化学习目前被认为是现有技术中最有可能实现通用人工智能的技术。”天津大学智能与计算系软件研究所副教授郝建业解释说,目前有机器学习、监督学习、无监督学习和强化学习三个分支。深度学习是当前监督学习中最主流的技术。深度强化学习是深度学习和强化学习的融合。它将深层神经网络集成到强化学习框架中。

“近年来,深度强化学习发展迅速。它在处理复杂、多层面和决策问题方面显示了巨大潜力。目前,深度强化学习技术主要应用于一些游戏和比赛中。郝建业表示,2016年,谷歌的“阿尔法围棋(AlphaGo)击败了世界顶尖围棋选手李世石和柯杰,创造了轰动,成为人工智能领域的里程碑。“阿尔法围棋(Alpha Go)”的核心在于使用深度强化学习算法,这使得电脑能够通过自我游戏不断提高自己的棋艺。从那以后,脸书在DOTA2游戏中击败了顶级职业玩家。CMU队开发的德州扑克人工智能冷攻击大师轻松击败顶级玩家。

此外,“深度思考”还使用深度强化学习来优化数据中心的能耗。谷歌利用深度强化学习来完成深度神经网络的自动架构搜索,并提出自动学习(AutoML)服务,将机器学习作为服务推广到成千上万的家庭。在中国,深度强化学习技术也有许多应用。阿里、腾讯和百度等国内团队将深度强化学习应用于搜索、推荐、营销、调度和路径规划等实际问题的决策。


  • 共3页:
  • 上一页
  • 1
  • 2
  • 3
  • 下一页