MobileNetV4 - 移动生态体系的通用模子
择要
我们先容了最新一代的 MobileNets,即 MobileNetV4(MNv4),其特点是针对移动装备的通用高效架构计划。在其焦点部分,我们引入了通用反向瓶颈(UIB)搜索块,这是一种同一而机动的结构,融合了反向瓶颈(IB)、ConvNext、前馈网络(FFN)和一种新奇的 Extra Depthwise(ExtraDW)变体。除了 UIB,我们还提出了移动 MQA,这是一个专为移动加快器定制的注意力模块,可明显进步 39% 的速率。我们还引入了优化的神经架构搜索(NAS)方法,进步了 MNv4 的搜索服从。整合 UIB、Mobile MQA 和改进的 NAS 配方后,一套新的 MNv4 模子在移动 CPU、DSP、GPU 以及 Apple Neural Engine 和 Google Pixel EdgeTPU 等专用加快器上实现了帕累托最优,这是其他测试模子所不具备的。末了,为了进一步进步正确性,我们引入了一种新奇的蒸馏技能。通过该技能的增强,我们的 MNv4-Hybrid-Large 模子实现了 87% 的 ImageNet-1K正确率,而 Pixel 8 EdgeTPU 的运行时间仅为 3.8ms。
论文链接:http://arxiv.org/abs/2404.10518
代码链接:https://github.com/tensorflow/models/blob/master/official/vision/modeling/backbones/mobilenet.py
一、先容
高效的装备上神经网络不光能带来快速、及时和交互式体验,还能克制通过公共互联网传输私人数据。然而,移动装备的盘算限定给均衡正确性和服从带来了巨大挑衅。为此,我们引入了 UIB 和移动 MQA 这两个创新的构建模块,并通过精炼的 NAS 配方举行整合,从而创建出一系列广泛意义上的 " areto-optimal "移动模子。别的,我们还先容了一种可进一步进步正确性的蒸馏技能。我们的通用倒置瓶颈(UIB)模块通过参加两个可选的深度卷积[19],改进了倒置瓶颈模块[36]。只管 UIB 很简朴,但它同一了闻名的微架构–反向瓶颈(IB)、ConvNext [32] 和 FFN [12]–并引入了额外深度卷积(Extra Depthwise)技能。UIB 具有空间和信道混淆的机动性,可扩展吸取场,并进步盘算服从。
图 1:MNv4 模子广泛具有帕累托最优性:在各种硬件上,MNv4 与领先的高效模子相比具有很强的上风。全部模子仅在 ImageNet-1k 上举行了训练。大多数模子都针对一种装备举行了优化,但 MNv4 在大多数装备上都到达了帕累托最优。混淆模子和 ConvNext 与 DSP 不兼容。由于 PyTorch-to-TFLite 导出工具的限定, EfficientViTs [13] [14] 没有在 CPU 和 EdgeTPU 上举行基准测试。由于 PyTorch 没有实现移动 MQA,MNv4-Hybrid 模子被清除在 CoreML 评估之外。
与多头注意力[44]相比,我们优化的移动 MQA 块在移动加快器上的推理速率进步了 39%。
我们的两阶段 NAS 方法将粗粒度搜索和细粒度搜索分开,大大进步了搜索服从,并有助于创建比以往开始进模子大得多的模子[41]。别的,联合离线蒸馏数据集可以镌汰 NAS 夸奖丈量中的噪音,从而进步模子质量。
通过整合 UIB、MQA 和改进的 NAS 配方,我们推出了 MNv4 模子套件,在包罗 CPU、DSP、GPU 和专用加快器在内的多种硬件平台上实现了帕累托最优性能。我们的模子系列涵盖的盘算范围从极其紧凑的 MNv4-Conv- S 计划(拥有 3.8M 参数和 0.2G MACs)(在 Pixel 6 CPU 上 2.4 毫秒内到达 73.8% 的 ImageNet-1K 最高精度),到 MNv4-Hybrid-L 高端变体(在 Pixel 8 EdgeTPU 上以 3.8 毫秒的速率运行,为移动模子精度创建了新的基准)。我们新奇的蒸馏配方混淆了具有差异增强功能的数据集,并添加了均衡的同类数据,从而增强了泛化本领,进一步进步了正确性。利用这种技能,MNv4-Hybrid-L到达了令人印象深刻的87%的top-1精度,在ImageNet-1K上,只管mac少了39倍,但与它的老师相比,只降落了0.5%
二、干系工作
对模子举行精度和服从优化是一个值得深入研究的题目。
移动卷积网络:紧张工作包罗:MobileNetV1[20] 采取深度分离卷积以进步服从;MobileNetV2[36] 引入线性瓶颈和倒置残差;MnasNet[40] 在瓶颈中集成轻量级注意力;MobileOne[43] 在推理时在倒置瓶颈中添加线性分支并重新参数化。
高效混淆网络:这一研究方向整合了卷积和注意力机制。MobileViT [33]通过全局注意力块将 CNN 的上风与 ViT [12] 相联合。MobileFormer [6] 并行了 MobileNet 和 Transformer,并在两者之间创建了双向桥,用于特性融合。FastViT [42] 将注意力添加到末了阶段,并利用大型卷积核更换早期阶段的自我注意力。
高效关注: 研究重点是进步 MHSA [44] 的服从。EfficientViT [13] 和MobileViTv2 [34] 为线性复杂度引入了自注意近似值,但对正确性影响较小。EfficientFormer- V2 [27] 对 Q、K、V 下采样以进步服从,而 CMT [15] 和NextViT [26] 仅对 K 和 V 下采样。
硬件感知神经架构搜索(NAS):另一种常用技能是利用硬件感知神经架构搜索(NAS)实现模子计划过程的自动化。NetAdapt [49] 利用履历耽误值来优化目标耽误束缚下的模子精度。MnasNet [40] 也利用耽误表,但应用了强化学习来实现硬件感知的 NAS。FBNet [47] 通过可变 NAS 加快多任务硬件感知搜索。MobileNetV3 [18]通过联合硬件感知 NAS、NetAdapt 算法和架构进步,对手机 CPU 举行了调解。MobileNet MultiHardware [8] 针对多种硬件目标优化了单一模子。Once-for-all [5] 将训练和搜索分开,以进步服从。
三、与硬件无关的帕累托服从
图2:脊点和耽误/精度衡量:脊点意味着丈量在屋顶线性能性能模子中干系的内存带宽mac之间的关系。如果内存带宽稳固,高盘算硬件(加快器)具有比低盘算硬件(cpu)更高的脊点。MobileNetV4紧张是 从0到500 mac /字节的脊点的帕累托最优。这些从分析中得到(等式1)图表反映了图1中的实际硬件丈量。
rooline模子:对于一个广泛有用的模子,它必须在具有限定模子性能的巨大差异瓶颈的硬件目标上表现良好。这些瓶颈很大程度上取决于硬件软件的峰值盘算吞吐量和峰值内存带宽。
为此,我们利用rooline模子[46]来估计给定工作负载的性能,并推测它是内存瓶颈照旧盘算瓶颈。简而言之,它抽象了特定的硬件细节,只思量工作负载的操纵强度(LayerMACsi/ WeightBytesi+)
ActivationBytesi)) vs.硬件处置处罚器和存储体系的理论极限。内存和盘算操纵大抵并行举行,因此两者中较慢的谁人决定了耽误瓶颈。为了将rooline Model应用于以i为索引层的神经网络,我们可以盘算模子推理耽误ModelTime,如下所示:
在屋顶线模子中,硬件举动由Ridge Point (RP)——硬件的峰值mac与峰值成员bw的比率来总结。即到达最大性能所需的最小操纵强度为了优化具有广泛瓶颈的硬件,如图2和图3所示,我们分析了算法的耽误,同时将RP从最低渴望值(0 MAC/字节)扫描到最高渴望值(500 MAC/字节)-拜见附录F相识更多细节。rooline模子仅依赖于数据传输与盘算的比率,因此具有类似RP的全部硬件将根据耽误对工作负载举行类似的排序这意味着如果新目标的RP包罗在扫描范围内,则扫描-RP顶线分析(见下一段)实用于将来的硬件和软件。
脊点扫描分析:如图2和图3所示,车顶线模子展现了MobileNetV4模子怎样实现与硬件无关的大多数pareto最优性能,而不是其他卷积mobilenet。在低rp硬件(比方cpu)上,模子更大概是盘算绑定而不是内存绑定。因此,为了改善耽误,纵然以增长内存复杂性(mobilenetv3large -1.5倍)为代价,也要只管镌汰mac的总数。数据移动是高rp硬件的瓶颈,因此mac不会明显低沉模子速率,但可以增长模子容量(MobileNetV1-1.5x)。因此,针对低rps优化的模子在高rps下运行痴钝,由于内存麋集型和低mac全毗连(FC)层在内存带宽上成为瓶颈,无法利用高可用的峰值mac。
图3:Op Cost vs Ridge Point:每个子图都表现了网络ops的屋顶耽误(图1)。网络从左边开始。大型conv2d在低脊点(RP)硬件上是昂贵的(上排),但在高脊点(RP)硬件上增长了自制的模子容量(下排)。FC层和dw - conv2d在低RPs时代价自制,在高RPs时代价昂贵。MobileNetV4均衡了mac麋集型的Conv2D层和内存麋集型的FC层,它们分别对网络的开始和竣事贡献最大。
MobileNetV4计划:MobileNetV4均衡了mac和内存带宽的投资,它们将为资本提供最大的回报,特殊注意网络的开始和竣事。在网络的初始阶段,MobileNetV4利用了大量且昂贵的初始层,以大幅进步模子的容量和卑鄙精度。这些初始层由大量mac控制,因此它们只在低rp硬件上昂贵。在网络的末了,全部MobileNetV4变体都利用类似的巨细只管这会导致较小的MNV4变体在高rp硬件上遭受更高的FC耽误,但终极的FC层可以最大限度地进步正确性。由于大的初始Conv层在低rp硬件上是昂贵的,而在高rp硬件上不是昂贵的,而且终极FC层在高rp硬件上是昂贵的,而在低rp硬件上不是,因此MobileNetV4模子永世不会同时看到这两种减速。换句话说,MNv4模子可以或许利用昂贵的层,这些层可以不成比例地进步精度,但不会同时受到层的组合资本的影响,从而在全部脊点上得到大多数帕累托最优性能。
四、通用倒置瓶颈
我们提出了通用倒瓶颈(UIB)块,这是一种实用于高效网络计划的自顺应构建块,它具有顺应各种优化目标的机动性,而不会爆炸搜索复杂性。UIB扩展了MobileNetV2[36]引入的倒转瓶颈(IB)块,它已经成为高效网络的尺度构建块[12,18,32,41]。
图4:通用倒瓶颈(UIB)块。
基于最乐成的MobileNet身分- 倒置瓶颈结构中的可分离深度卷积(DW)和点向(PW)睁开和投影,本文引入了一个新的构建块-通用倒置瓶颈(UIB)块,如图4所示。它的结构相当简朴。我们在倒瓶颈块中引入两个可选的dw,一个在扩展层之前,一个在扩展层和投影层之间。这些dw的存在与否是NAS优化过程的一部分,从而产生新的体系结构。只管这种修改很简朴,但我们的新构建块很好地同一了几个紧张的现有块,包罗原来的IB块、ConvNext块和ViT中的FFN块。别的,IB引入了一个新的变体:Extra depth IB (extradepth IB)块。
除了答应在NAS期间利用机动的IB结构外,我们还克制了任何人工制作的缩放规则,比方在effentnet中利用的规则,而是针对每个模子巨细单独优化结构。为了克制NAS SuperNet的巨细爆炸,我们共享了常见的组件(点向扩展和投影),并简朴地添加了DW作为额外的搜索选项。与基于SuperNet的网络架构搜索算法相联合,该方法可以在差异的网络中共享大部分参数(>95%)
实例化,使NAS非常高效。
UIB实例化 这两个可选深度卷积有四种大概的实例化(图4),导致差异的衡量。
倒置瓶颈(IB) 在扩展的模子上举行空间混淆,以增长的资本提供更大的模子容量。
通过在扩展之前实验空间混淆,ConvNext答应更自制的空间混淆和更大的内核巨细。
本文先容的是一种新的变体ExtraDW,它答应以低资本增长网络深度和继续域。它提供了ConvNext和IB的综合长处。
FFN是两个1x1点卷积(PW)的堆栈,中心有激活层和归一化层。PW是对加快器最友爱的op操纵之一,但在与其他块一起利用时结果最好。
在每个网络阶段,UIB提供机动性(1)举行暂时spa初始和信道混淆衡量。(2)根据必要扩大感受野。(3)最大化盘算利用率。
五、移动MQA
在本节中,我们先容了Mobile MQA,这是一种专门针对加快器优化的新型注意力块,可提供高出39%的推理速率。
运算强度的紧张性:近来对视觉模子的研究紧张会合在镌汰算术运算(mac)以进步服从。然而,移动加快器性能的真正瓶颈通常不是盘算,而是内存访问。这是由于加快器提供的盘算本领远宏大于内存带宽。因此,简朴地最小化mac大概不会带来更好的性能。相反,我们必须思量运算强度,即算术运算与内存访问的比率。
MQA在混淆模子中是高效的:MHSA[44]将查询、键和值投射到多个空间中,以捕捉信息的差异方面。多查询注意(MQA)[37]通过在全部头中利用共享键和值简化了这一点。固然多个查询头是必不可少的,但大型语言模子可以有用地为键和值共享单个查询头,而不会捐躯正确性[7][25]。当批处置处罚令牌的数目与特性维度相比相对较小时,键和值的共享磁头大大镌汰了内存访问需求,从而明显进步了操纵强度。这是移动应用的混淆视觉模子的典范情况,其注意力仅用于具有高特性维度的低分辨率后期阶段,批处置处罚巨细通常为1。我们的实验证实白MQA在混淆模子中的上风。如表1所示,与MHSA相比,MQA在edgetpu和Samsung S23 GPU上实现了高出39%的加快,质量丧失可以忽略不计(-0.03%)。MQA还将mac和模子参数低沉了25%以上。据我们所知,我们是第一个将MQA用于移动视觉的公司。
表1:MQA的服从增益。根本型号为mnv4 - convl。额外的注意力块被添加到末了一个阶段。陈诉的百分比改进仅比力了注意力块的耽误(基线MHSA)。
联合非对称空间降采样:从MQA中得到灵感,MQA利用了查询、键和值之间的非对称盘算,我们将空间镌汰注意(SRA)[45]联合到我们优化的MQA块中,以低沉键和值的分辨率,同时生存高分辨率的查询。该战略的动机是观察到混淆模子中空间相邻标志之间的干系性,归因于早期层的空间混淆卷积滤波器。通过非对称空间下采样,我们在输入和输出之间保持类似的令牌计数,保持了注意力的高分辨率,明显进步了服从。与[45]差异的是,我们的方法用3 × 3深度卷积代替AvgPooling,利用2的步长举行空间缩减,提供了一种经济有用的方法来进步模子容量。这里我们展示我们的Mobile MQA模块:
此中SR表现空间缩减,即我们计划中步幅为2的DW,大概在不利用空间缩减的情况下表现恒等函数。如表2所示,联合非对称空间下采样可以得到20%以上的服从增益,同时精度丧失最小(-0.06%)。
表2:不对称空间降采样在移动MQA中的改进:以MNv4-Hybrid-M为根本模子,在三星S23上举行评估。在16 × 16像素的倒数第二阶段应用步长为2的下采样。
六、MNv4模子的计划
我们的计划理念:简朴满足服从。在开发最新的mobilenet时,我们的焦点目标是在差异的移动平台上实现帕累托最优。为了实现这一点,我们起首对现有的模子和硬件举行广泛的干系性分析。通过实证查验,我们发现了一组组件和参数,它们都确保了跨各种装备的资本模子(耽误资本的推测)之间的高度干系性,而且ap在性能上靠近帕累托边界。
我们的观察展现了关键的见解:
多路径服从题目:卷积[52]和类似的多路径计划,只管较低的FLOP计数,但由于内存访问复杂性,服从大概较低。
硬件支持题目:像Squeeze and Excite (SE)[21]、GELU[16]、LayerNorm[1]如许的高级模块在dsp上不被很好地支持,LayerNorm也落伍于BatchNorm [23], SE在加快器上也很慢。
简朴的气力:传统的组件——深度和点智能卷积、ReLU[35]、BatchNorm和简朴关注(比方MHSA)——展示了杰出的服从和硬件兼容性。
基于这些发现,我们创建了一套计划原则:
- 尺度组件:我们优先思量广泛支持的组件,以实现无缝摆设和硬件服从。
- 机动的UIB模块:我们新奇的可搜索的UIB构建模块答应自顺应的空间和通道混淆,继续场调解和最大的最小化盘算利用率,通过网络架构搜索(NAS)促进服从和正确性之间的均衡妥协。
- 采取直接的注意力:我们的移动MQA机制pri优先思量简朴的最佳性能。
这些原则使得MobileNetV4在全部被评估的硬件上都是最优的。在下文中,我们具体先容了用于UIB模子搜索的精炼NAS配方,概述了针对各种MNv4-Conv模子巨细的特定搜索设置,并表明确混淆模子的构建。
6.1 为增强的体系结构改进NAS
为了有用地实例化UIB块,我们采取了TuNAS[3],并对其举行了量身定制的增强,以进步性能。
增强的搜索战略:我们的方法通过实现两阶段搜索,减轻了TuNAS对较小过滤器和扩展因子的私见,这归因于参数共享。该战略办理了UIB深度层和其他搜索选项之间参数计数的差异。
粗粒度搜索:最初,我们专注于在保持固定参数的同时确定最佳过滤器巨细:一个默认扩展因子为4的反向瓶颈块和一个3x3深度内核。
表3展示了与传统的单阶段搜索相比,通过我们的两阶段搜索得到的更高服从和模子质量,传统的单阶段搜索在单个TuNAS通道中探索同一的搜索空间。
表3:一级搜索和二级搜索的比力,突出了Pixel 6 EdgeTPU上精度的进步和耽误的镌汰。
以妥当训练增强TuNAS:TuNAS的乐成取决于对修建质量的正确评估,这对于夸奖盘算和战略学习至关紧张。最初,TuNAS利用ImageNet-1k来训练超等网络,但是ImageNet上的模子性能显着受到数据增强、正则化和超参数选择的影响。思量到TuNAS不绝发展的架构样本,找到一组稳固的超参数是具有挑衅性的。
我们通过离线蒸馏数据集办理了这个题目,消除了额外增强的必要,低沉了对正则化和优化设置的敏感性。如第8节所述,JFT蒸馏数据集作为TuNAS的训练集,在表4中表现了明显的改进。认识到深度尺度模子在扩展训练课程中优于宽度尺度模子[2],我们将TuNAS训练扩展到750个epoch,从而产生更深、更高质量的模子。
表4:JFT蒸馏的性能提升:ImageNet-1k与JFT数据上的NAS训练。夸大服从的改进和精度的渺小差异。
6.2 MNv4模子的优化
我们从nas优化的UIB块中构建了MNv4-Conv模子,并根据特定的资源束缚举行了定制。在附录a中给出了更多的细节。与其他混淆模子一样,我们发现关注卷积模子的末了阶段是最有用的。在MNv4-Hybrid模子中,我们将移动MQA块与UIB块交错放置以增强性能。综合型号规格请拜见附录D。
七、结果
在本节中,我们将展示MobileNet V4 (MNv4)模子在ImageNet-1K分类和COCO对象检测上的最优pareto性能。
7.1 ImageNet分类
实验设置:为了评估模子架构性能,我们依照ImageNet-1k[11]训练分割的尺度训练方案,并在其验证分割上丈量Top-1精度。我们的耽误分析涵盖了多种具有代表性的移动硬件,包罗ARM Cortex cpu (Pixel 6、三星S23)、高通Hexagon DSP (Pixel 4)、ARM Mali GPU (Pixel 7)、高通骁龙(S23 GPU)、苹果神经引擎和谷歌EdgeTPU。我们完备的训练设置详见附录c。在基准测试中,我们将我们的模子与领先的高效模子举行比力,包罗混淆模子(MiT-EfficientViT[13]、FastViT[42]、NextViT[26])和卷积模子(MobileOne[43]、ConvNext[32]和从前的MobileNet版本[19][36][18]),基于他们陈诉的Top-1正确度和我们的耽误评估。值得注意的是,我们利用当代训练配方增强了MobileNet系列(V1, V2, V3),从而大幅进步了正确性:MobileNet V1增长3.4%至74.0%,V2增长1.4%至73.4%,V3增长0.3%至75.5%。这些增强的MobileNets基线在整篇论文中被用来隔离架构上的进步。
结果:
我们的结果(见图1和表5)表明,MNv4模子在一系列精度目标和移动硬件(包罗cpu、dsp、gpu和专用加快器,如Apple Neural Engine和Google EdgeTPU)上大多是帕累托最优的。
在cpu上,MNv4模子的表现显着优于其他模子,约莫是MobileNetV3的两倍,在划一精度目标下,比其他模子快几倍。在edgetpu上,MNv4模子在类似精度程度下的速率是MobileNet V3的两倍。具体来说,mnv4 - con - m模子比MobileOne-S4和FastViT-S12快50%以上,同时在类似的耽误下,也比MobileNet V2进步了1.5%的Top-1精度。在S23 GPU和iPhone 13 CoreML (ANE)上,MNv4型号大多位于Pareto前端。MIT-EfficientViT是S23 GPU上最靠近的竞争对手,在类似的精度下,它的耽误是CoreML上MNv4的两倍以上。针对苹果神经引擎举行优化的FastViT在CoreML上排名第二,但耽误是S23 GPU上MNv4的5倍多。与很多混淆模式一样,mnv4 -混淆模式不兼容dsp。只管云云,MNv4-Conv模子仍然是DSP上的顶级性能,夸大其在差异硬件平台上的领先兼容性和服从。MNv4-Conv型号提供杰出的硬件兼容性和服从。这一乐成突出了我们的UIB块、增强的NAS配方和经心计划的搜索空间的上风。MNv4-Hybrid在cpu和加快器上实现了精彩的性能,展示了我们的移动MQA计划的跨平台服从。
表5:ImageNet-1K上的分类结果[11],以及装备上的基准测试。陈诉中值耽误。−表现由于缺少对应平台的模子文件,我们没有对模子举行基准测试。“Failed”表现平台不支持该模子。
对于移动模子来说,通用性是至关紧张的,这要求它们在差异的硬件平台上表现最佳。我们的评估突出了现有模子在实现这一目标时所面对的挑衅。MobileNet V3在cpu上表现不错,但在edgetpu、dsp和gpu上表现不佳。FastViT在苹果神经引擎上表现良好,但在cpu和gpu上表现不佳。EfficientViT在gpu上表现不错,但在苹果神经引擎上表现不佳。相比之下,MNv4-Conv模子表现出杰出的兼容性,并在各种硬件(包罗cpu、gpu、Apple Neural Engine和Google edgetpu)上实现了广泛的pareto最优性能。这种多功能性确保了MNv4-Conv模子可以在整个移动生态体系中无缝摆设,而无需任何特定平台的调解,为移动模子的通用性设定了新的基准。
7.2 COCO目标检测
实验设置:我们在COCO 17[31]数据集上评估了MNv4骨干网用于目标检测任务的有用性。我们比力了m巨细的MNv4骨干网与mac数目相似的SOTA高效骨干网。对于每个主干,我们利用RetinaNet[30]框架构建一个对象检测器。我们将一个256 d的FPN[29]解码器毗连到P3 - P7端点,以及一个256 d的推测头,具有4个卷积层。与通常的移动检测器一样,我们采取深度可分离卷积来低沉FPN解码器和盒推测头的盘算复杂度。我们在COCO 17[31]训练集上训练了600个epoch的全部模子。全部图像都调解为384px,并利用随机程度翻转,随机缩放以及Randaug[9]举行增强。我们从Randaug中清除了剪切和旋转增强,由于这些变形会粉碎小物体检测AP。训练利用2048批巨细Adam[24]举行,L2权重衰减为0.00003。我们利用24次预热的余弦学习率操持,并分别调解每个模子的学习率。对于全部基线,我们设置了过滤器乘数,以便mac大抵具有可比性。在分类实验之后,利用0.2的随机降落率[22]对MobileNet V4骨干网举行训练。全部MobileNet基线都利用官方Tensorflow模子花圃[17]实现举行训练。我们在Tensorflow中重新实现了EfficientFormer。
结果:实验结果见表6。参数、mac和基准是利用整个检测器在384px输入分辨率下盘算的。中等巨细的仅卷积mnv4 - convm检测器实现了32.6%的AP,类似于MobileNet Multi-AVG和MobileNet v2。然而,Pixel 6的CPU耽误比MobileNet Multi-AVG低12%,比MobileNet v2低23%。在Pixel 6 CPU耽误增长18%的情况下,添加Mobile MQA块使MNv4-Hybrid- m检测器的AP比MNv4- convm检测器增长了1.6%,证实白MNv4以Hybrid情势实验目标检测等任务的有用性和服从。
表6 COCO-17 [31] Val. set上的目标检测结果。在MobileNet骨干网旁边陈诉的宽度乘数是按比例放大的。
八、强化蒸馏配方
作为架构创新的增补,蒸馏是进步呆板学习服从的有力工具。它的长处对于移动机型来说尤其显着,在严酷的摆设限定下大概提供数倍的服从提升。基于强大的Patient Teacher蒸馏基线[4],我们引入了两种新技能来进一步进步性能。
动态数据集混淆:数据增强对于每性能的蒸馏至关紧张。固然先前的方法依赖于固定的增强序列,但我们发现动态混淆具有差异增强战略的多个数据集可以得到更好的蒸馏结果。我们实验了三个关键的蒸馏数据集:
D1:初始裁剪[39],然后是RandAugment [10], l2m9应用于500ImageNet-1k副本。
D2:盗梦裁剪,然后是非常混淆[51],应用于1000个ImageNet-1k副本(镜像耐烦西席方法)。
D1 + D2:训练时D1和D2的动态混淆。
我们在表7中的结果表现,D2在门生正确率方面优于D1(84.1%对83.8%)。然而,动态混淆数据集(D1 + D2)将正确性进步到84.4%(+0.3%)。这一发现表明,数据集混淆扩展了增强图像空间,增长了难度和多样性,终极导致门生结果的进步。
JFT数据增强:为了增长训练数据量,我们通过对JFT 300M[38]数据集重新采样到每个类130K张图像(统共130M张),在域添加类均衡数据。依照嘈杂门生[48]协议,并利用ImageNet-1K训练的EfficientNet-B0,我们选择了干系阈值高于0.3的图像。对于数据丰富的类,我们选择前130K的图片;对于有数类,我们复制图像以保持均衡。这个数据集被复制到,缩放了10倍。由于JFT的复杂性,我们应用较弱的增强(Inception Crop + RandAugment l2m5)。这形成了蒸馏数据集D3。表7表现单独利用JFT (D3)会导致2%的精度降落。然而,将JFT与ImageNet数据相联合,结果进步了0.6%,证实白额外数据对泛化的代价。
我们的蒸馏配方:我们的组合蒸馏配方动态地混淆数据集D1、D2和D3,用于差异的增强,并利用类均衡的JFT数据。如表7和表8所示,与之前的SOTA相比,我们的方法实现了高出0.8%的top-1精度的划一性进步[4]。训练2000个epoch的mnv4 - convl门生模子得到85.9%的top-1正确率。这证实白我们方法的有用性:门生缩小了15倍在MACs上比它的老师EfficientNet-L2小48倍,但正确率只降落了1.6%。当将精馏与JFT上的预训练相结适时,mnv4 - convo - hybrid到达87.0%的top-1精度。
表7:利用mnv4 - convl作为门生的蒸馏结果,突出了SOTA的收益,并明确地标志了我们的贡献。
表8:训练方法之间的Top-1精度比力:这个表对比了基线ImageNet-1k训练、开始进的(SOTA)蒸馏和我们的蒸馏方法。
九、结论
在本文中,我们先容了MobileNetV4,这是一系列通用的、高效的模子,可在整个移动生态体系中高效运行。我们利用多项进步,使MobileNetV4在全部移动cpu, gpu, dsp和专用加快器上大多数是帕累托最优的,这是在任何其他测试模子中没有发现的特性。我们引入了新的通用倒瓶颈和移动MQA层,并将它们与改进的NAS食谱联合起来。将这些与一种新奇的、开始进的蒸馏方法相联合,我们在Pixel 8 EdgeTPU上以3.8ms耽误实现了87%的ImageNet-1K精度,推进了移动盘算机视觉的发展。别的,我们先容了一个理论框架和分析,以相识是什么使模子在异构装备上通用,为将来的计划指明确门路。我们渴望新的贡献和分析框架进一步推动移动盘算机视觉的进步。
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!qidao123.com:ToB企服之家,中国第一个企服评测及软件市场,开放入驻,技术点评得现金 |