AI算法效率每16个月提速一倍,算力革命超越摩尔定律

 人工智能技术     |      2020-05-15 16:08

作者 |蒋宝尚

编辑 |丛末

摩尔定律预测芯片性能每18个月翻一倍,那 AI 算法性能多少个月翻一番?

答案是16个月。

图注:蓝点是给定时间的最低计算机,灰点是测量值。

观察结果是每16个月性能翻一倍。近日,OpenAI针对AI算法在过去数年中性能的提升做了一个详细的分析。他们发现,自2012年以来,在 ImageNet 分类上训练具有相同性能的神经网络,所需要的计算量,每16个月降低一倍。

与2012年相比,现在将神经网络训练到 AlexNet 的性能,所需的计算量仅为原来的1/44(相比之下,摩尔定律仅降低为1/11)。若将“算法效率”定义为:减少训练特定任务所需的计算量。我们还可以看到:

在ImageNet上,ResNet-50 级别的训练效率翻倍时间大约为17个月;

在WMT’14的翻译任务上,Transformer相比seq2seq,训练的“算法效率”提升了61倍,所用时间约为 3 年,也即翻倍时间为 6 个月;

在围棋任务上,AlphaGo Zero所需的计算量是AlphaZero的1/8,翻倍时间仅为 4 个月;在Dota 任务上,翻倍时间仅为 25 天!!!

所有这些结果表明,对于近期投入大量资金的这些 AI 任务,算法上的进步相比硬件的进步(服从摩尔定律,每18个月翻倍),能产生更多的效益。

如果用有效计算的概念把AI和计算的趋势结合起来,那么,其表现就如下图所示:AI和计算的趋势被分解为硬件效率(摩尔定律)以及金钱和并行化(money/parallelization)之后,算法效率的提升只占总体提升的一部分。

主要衡量指标

前面也提到,所使用的衡量方法对现有的开源项目的再实现。

另外OpenAI还在体系结构之间进行了少量超参数调整以及小范围的调优。

使用的计算是基于以下结果:

1、每个图像的浮点计算,由PyTorch库计数

2、图片每个epoch的数量

3、架构的性能优于或等于OpenAI训练的AlexNet模型所需的时间间隔数。

据OpenAI介绍,其很大程度上遵循了PyTorch示例模型中建议的超参数,对于每一个模型都使用SGD进行训练,批次大小为256,冲量(momentum)为0.9,权重衰减设置为1e-4。对于预处理的架构,例如GoogleNet 和 VGG,学习率为0.01,对于其他架构学习率为0.1。


  • 共3页:
  • 上一页
  • 1
  • 2
  • 3
  • 下一页