无需调控而胜任不同任务 这种AI更接近人类思考方式

 人工智能技术     |      2019-12-03 18:06

导读:纽约大学心理学和认知科学教授马库斯(Marcus)最近赶上了人工智能公司的“深度思维”(DeepMind)。最近在推特上质疑了美国通用人工智能研究机构OpenAI的魔方操纵器后,他最近就

纽约大学心理学和认知科学教授马库斯(Marcus)最近赶上了人工智能公司的“深度思维”(DeepMind)。最近在推特上质疑了美国通用人工智能研究机构OpenAI的魔方操纵器后,他最近就星际争霸2的新“深度思考”代理“阿尔法星”(AlphaStar)进化版本提出了六大问题。这一次,他的问题点不是游戏本身的表现,而是指向一个更高的层次:未来一般智力研究的意义。

近年来最酷的结果来自强化学习

这次由OpenAI推出的魔方机器人(Rubik's Cube Robot)不使用专业算法来解决特定的任务(如果你改变任务,你需要重新编程)。相反,它通过某种学习方法训练机器人,这样机器人就有能力解决像人手这样的问题。然而,马库斯认为对这一成就的描述具有误导性,更恰当的描述应该是“用强化学习操纵魔方”或“用灵巧的机器人手操纵物体的进展”。

“马库斯过于强调‘利用强化学习操纵魔方’,有点吹毛求疵。事实上,OpenAI Rubik魔方机器人和“深度思考”发布的“星际争霸2”的“阿尔法星”进化版本都使用了深度强化学习技术。深度强化学习目前被认为是现有技术中最有可能实现通用人工智能的技术。”天津大学智能与计算系软件研究所副教授郝建业解释说,目前有机器学习、监督学习、无监督学习和强化学习三个分支。深度学习是当前监督学习中最主流的技术。深度强化学习是深度学习和强化学习的融合。它将深层神经网络集成到强化学习框架中。

“近年来,深度强化学习发展迅速。它在处理复杂、多层面和决策问题方面显示了巨大潜力。目前,深度强化学习技术主要应用于一些游戏和比赛中。郝建业表示,2016年,谷歌的“阿尔法围棋(AlphaGo)击败了世界顶尖围棋选手李世石和柯杰,创造了轰动,成为人工智能领域的里程碑。“阿尔法围棋(Alpha Go)”的核心在于使用深度强化学习算法,这使得电脑能够通过自我游戏不断提高自己的棋艺。从那以后,脸书在DOTA2游戏中击败了顶级职业玩家。CMU队开发的德州扑克人工智能冷攻击大师轻松击败顶级玩家。

此外,“深度思考”还使用深度强化学习来优化数据中心的能耗。谷歌利用深度强化学习来完成深度神经网络的自动架构搜索,并提出自动学习(AutoML)服务,将机器学习作为服务推广到成千上万的家庭。在中国,深度强化学习技术也有许多应用。阿里、腾讯和百度等国内团队将深度强化学习应用于搜索、推荐、营销、调度和路径规划等实际问题的决策。

最有可能实现通用人工智能的技术

随着人工智能发展到目前的水平,技术英雄应该属于深度学习算法。深度学习利用多层神经网络从海量数据中学习,从而实现对未来的预测,使人工智能系统越来越智能化。目前,我们应用的安全监控、自动驾驶、语音识别和百度地图都是深度学习技术在图像视觉、语音识别和自然语言理解领域的应用。

然而,强化学习也是机器学习领域的一种流行技术。与基于已知标签训练模型的监督学习不同,强化学习可以像人一样实现自主学习,而无需计算机的明确指令。在达到一定的学习量后,强化学习系统可以预测正确的结果。“强化学习的基本思想是了解在不同的环境和不同的状态下,哪些行为可以使预期的收益最大化。”郝建业介绍说,新版“阿尔法星”智能体采用强化学习的自我战斗技术。学习过程不需要数据标注,而是由奖励功能主导。当代理获得奖励分数或赢得比赛时,它将获得正面反馈,代理将根据比赛结果调整其行为。这就像一个婴儿学习走路,并根据结果调整自己的行为。

目前,一般人工智能的定义有两个主要特征,一个是端到端学习,另一个是任务自适应,不需要人工干预,能够胜任不同的任务。深度强化学习可以将深度学习的感知能力与强化学习的决策能力相结合,并根据输入的信息进行直接控制。它是一种更接近人类思维方式的人工智能技术。在与世界正常互动的过程中,强化学习将使用奖励通过反复试验来学习,这与自然学习过程非常相似。例如,单手魔方(Rubik's Cube)解算器可能需要使用深度学习技术(如图形识别)来查看魔方,然后需要加强学习模型,以便机器人能够在不断尝试和出错的过程中自主学习。在强化学习中,可以使用较少的训练信息,这具有信息更充分的优点,并且不受管理者技能的限制。深度强化学习是建立对世界有更高理解水平的自主系统的又一步,这就是为什么深度强化学习目前被认为是最有可能在现有技术中实现通用人工智能的技术。

未来通用人工智能应依赖脑科学

“虽然据说深度强化学习技术最有可能实现一般的人工智能,但不能说它一定会实现。我们离真正的通用人工智能还很远。”郝建业表示,当深度学习和强化学习相结合时,枚举真实情况成为识别真实情况的第一步,然后枚举有限模式,从而减轻计算压力,但所需数据将远远大于其他机器学习算法。如果场景扩展到多智能体深度强化学习,那么所需的数据和计算能力将成倍增加。目前,还没有一个平台能够提供强化学习所需的海量数据,也不可能穷尽现实中可能遇到的各种复杂情况。这种数据需求在许多实际领域都无法实现。

例如,强化学习需要大量的尝试和错误。如果一只手的魔方解算器被应用到真实的烹饪场景中,它可能会把配料撒得满地都是,把一整袋盐倒进锅里,然后引起火灾。因此,通过试错学习模式,无法在真实场景中实现。

此外,在机器学习领域,深度学习和强化学习是最难成功调试的。事实上,成功的案例并不多,但一旦推出,就会引起轰动。此外,这是一个模型框架,即使随机种子也会极大地影响学习效果。在同一模型中,10次训练可能失败7次,3次可能成功。另一点是深度强化学习非常容易过度适应当前代理的交互环境。因此,如果环境稍有变化,以前表现良好的代理可能会犯低级错误。

“当人类知道事情时,他们通常使用数据进行因果推理和判断,以得出相应的解决方案。但目前的人工智能系统无法实现这种因果推断。”郝建业表示,一般人工智能的发展可能取决于未来脑科学的发展。目前,我们对人脑的认知仍处于非常初级的阶段。大脑对事物的认知过程、解决问题的过程和思考能力仍然不清楚。因此,目前人工智能的发展距离真正模拟人类智能思维的通用人工智能还有很长的路要走。

延伸阅读:人工智能提升星际争霸2玩家到最高等级

在星际争霸2的欧洲服务器上进行的“盲测”显示,由谷歌深度思考公司开发的人工智能程序“阿尔法星”(Alpha Star)超过了游戏中99.8%的人类玩家,在游戏中人类、神族和虫族的排名中达到了最高的“大师”级别。“深度思考”研究小组在最近出版的英国杂志《自然》上报道了这一结果。

据报道,在官方网站星际争霸2的欧洲服务器上,“阿尔法星”(Alpha Star)使用与人类玩家相同的地图和条件匿名参与游戏,可以在没有任何干预的情况下不断完善自己。为了使测试更加公平,该团队还根据人类玩家的水平限制了机器的一些能力,例如将“阿尔法星”(alpha star)的动作频率降低到接近熟练的人类玩家,并将它的视觉限制在相机范围内。

“深度思考(Deep Thinking)”研发团队认为,训练“阿尔法星”的先进方法和算法框架有望用于解决未来复杂的实际问题,包括天气预测、气候模型计算和语言理解。然而,一些学者对人工智能在现阶段挑战战略游戏的能力持保守态度。加拿大纽芬兰纪念大学的人工智能学者戴夫·丘吉尔(Dave Churchill)认为阿尔法仍然有许多弱点,比如它无法抵御前所未见的策略。(记者陈Xi)