图片7
对于基于边缘计算的场景下的AI加速,笔者参考相关论文认为大致可以归结为四个方面:
云计算协作(云端培训,边缘推理)
为了弥补边缘设备计算、存储等能力的不足,在人工智能方法培训过程中,需要满足强大计算、存储等方面的需求,提出了云计算和边缘计算协同服务体系结构。下面的图表显示,研究者们建议把培训流程部署到云中,同时将经过培训的模型部署到边缘设备上。很明显,这种服务模式可以在一定程度上弥补人工智能在边缘设备上的计算、存储等功能的需求。
模式划分(云边协同推理)
为在边缘设备上部署人工智能方法,下图提出切割训练模型,是一种边缘服务器与终端设备协同训练的方法。该算法把运算量较大的计算任务由边缘服务器承担,而运算量小的计算任务保留在终端设备上。在此基础上,对终端设备和边缘服务器进行协同推理,可以有效降低深度学习模型推理延迟。但是,由于模型切点的不同,所需的计算时间也不相同,所以要充分利用终端和边的协同作用,选择最优的模型切分。
模型裁剪
为降低人工智能在计算、存储和其他方面的能力的需要,一些研究者提出了一系列的技术,在裁剪训练模型时不影响训练精度,例如在训练时丢弃非必要数据,稀疏数据的表征,稀疏代价函数,等等。下面的图表显示了一个剪裁的多层次感知网络,网络中很多神经元在值为零,而这些值在计算过程中不起作用,因此可以把它们去掉,以减少训练时计算和存储的需要,并尽可能使训练过程在边缘设备上完成。同时,作者还提出了一些压缩、裁剪技巧,使其能大大减少网络神经元数目,而对准确度几乎没有影响。
轻量加速架构的设计。
工业上,有许多公司开始研发低功率加速芯片。例如,寒武纪公司推出的思元系列和由华为推出的升腾系列,能够对各种硬件结构进行适配和兼容,从而支持边缘计算典型的应用场景。
目前学术界对边缘AI硬件的设计主要集中在提高深度神经网络的计算性能以及对CNN、FCN、RNN等相关算法的改进。研究者利用神经网络的冗余、弹性等特点,优化NN算法的运算和数据迁移,减少NN算法的功耗,提高性能。以下表格概述了有关低功耗机器学习处理器的一些情况。
AI近几年来,在因特网应用、工业互联网、医疗、生物以及自动驾驶等领域都取得了飞速发展。与此同时,随着边缘计算的逐渐成熟,边缘计算行业也将越来越关注其在人工智能领域的发展。
基于边缘计算场景的特点,它的硬件具有比传统的数据中心更高的异构化,这给现有的计算框架带来了巨大的挑战。怎样快速支持异构的计算芯片,确保运算效率,也非常值得产业界研发力量不断投入。