旷视首席孙剑:视觉计算前沿进展

 人工智能技术     |      2020-05-15 16:08

5月8日上午,旷视首席科学家、西交大人工智能学院院长孙剑博士在线做了一场“视觉计算的前沿进展”的报告,报告是由「信息技术新工科产学研联盟」主办的人工智能教育线上公开课。

孙剑博士在报告中将当前使用卷积神经网络的计算机视觉分两个方面进行了探究:

1、卷积神经网络,核心可以归纳为:网络的深度、网络的卷积操作、网络的宽度和网络的大小。

2、计算机视觉,核心问题可以归纳为:分类、检测、分割以及序列。

孙剑表示,针对这些问题,研究员们已经做出了非常多的努力,也有了非常多的进步,但是长尾分布、自监督学习、遮挡等计算机视觉中的关键问题还没有解决。下面我们对孙剑博士报告的部分内容作以介绍。

卷积神经网络

计算机视觉包含很多任务,其中一条主线是如何理解一张图片,也就是图像的表示问题。从1978年的 2.5D Sketch一直到中间的点特征、局部特征再到今天的深度卷积神经网络,图像表示问题已经有了几十年的研究。

当前最主流的方法是深度卷积神经网络,即输入一张图片,经过中间函数的作用,输出一个类别。但卷积神经网络到底学到了什么呢?孙剑提到,学到的东西可以分为低级表示和高级表示两个维度,低级表示例如线段、边缘、纹理等,高级特征例如如狗、耳朵等。

卷积神经网络开始的思想很早之前就已经存在,早在80年代,日本科学家提出神经认知机的概念,可以算作是卷积网络最初的实现原型。90年代Yann LeCun 把这种方法发扬光大,从而学界开始卷积神经网络的研究。

卷积神经网络的核心问题可以归纳为上面几个:大小、卷积、深度、宽度。其中卷积最核心,作为一种算子,其具有空间不变性、权重共享等特点,一般3*3的卷积最为常见。一个3*3的卷积如果再加上通道数的卷积计算,就能提取特征信息。后来出现的1*1的卷积也非常有效,其能够有效的降低计算复杂度,融合它的通道信息。


  • 共4页:
  • 上一页
  • 1
  • 2
  • 3
  • 4
  • 下一页