大模型使用新战场：揭秘终端侧AI竞赛要害｜智在终端

09-02 218阅读 15评论

文章最后更新时间：2024年09月03日

鱼羊发自凹非寺
量子位 | 大众号 QbitAI

2024年曩昔2/3，大模型范畴的一个一致开端更加明晰：

AI技能的真实价值在于其普惠性。没有运用，根底模型将无法发挥其价值。

于是乎，回忆这大半年，从互联网大厂到手机厂商，各路人马都在探究AI年代Killer APP的道路上狂奔。这股风潮，也开端在尖端学术会议中暴露踪影。

其间被职业、学术界都投以注重的一个中心问题便是：

在大模型“力大砖飞”的布景之下，AIGC运用要怎么在手机等算力有限的终端设备上更丝滑地落地呢？

△Midjourney生成

这段时刻以来，ICML（国际机器学习大会）、CVPR（IEEE国际核算机视觉与模式识别会议）等顶会上的最新技能共享和当选论文，正在揭开更多细节。

是时分总结一下了。

AI运用背面，我们都在聚集哪些研讨？

先来看看，AI运用从云端迈向终端，现在开展到何种程度了。

现在，在大模型/AIGC运用方面，很多安卓手机厂商都与高通保持着深度协作。

在CVPR 2024等顶会上，高通的技能Demo，招引了不少眼球。

比方，在安卓手机上，完成多模态大模型（LLaVA）的本地布置：

△Qualcomm Research发布于YouTube

这是一个70亿参数等级的多模态大模型，支撑多品种型的数据输入，包含文本和图画。也支撑环绕图画的多轮对话。

就像这样，丢给它一张小狗的相片，它不只能描绘相片信息，还能接着和你聊狗狗适不适合家养之类的论题。

△量子位在巴塞罗那MWC高通展台拍照的官方演示Demo

高通还展示了在安卓手机上运转LoRA的实例。

△Qualcomm Research发布于YouTube

以及音频驱动的3D数字人版AI帮手——相同能在断网的情况下本地运转。

重播

01:10/01:10

△Qualcomm Research发布于YouTube

Demo原型既出，加之手机厂商们的魔改优化，关于一般用户而言，意味着其间展示的新玩法新或许，在我们自个儿的终端设备上现已指日可下。

但在顶会上，更加遭到注重的是，demo之外，高通的一系列最新论文们，还具体地揭开了运用背面需求要点布局的要害技能。

量化

其间之一，便是量化。

在手机等终端设备上布置大模型/AIGC运用，要处理的一大要点是怎么完成高效能的推理。

而量化是进步核算功能和内存功率最有用的办法之一。而且高通以为，运用低位数整型精度对高能效推理至关重要。

高通的多项研讨工作发现，关于生成式AI来说，因为根据Transformer的大言语模型遭到内存的约束，在量化到8位（INT8）或4位（INT4）权重后往往可以取得大幅进步的功率优势。

其间，4位权重量化不只对大言语模型可行，在练习后量化（PTQ）中相同或许，并能完成最优体现。这一功率进步现已超越了浮点模型。

具体来说，高通的研讨标明，凭借量化感知练习（QAT）等量化研讨，许多生成式AI模型可以量化至INT4模型。

在不影响准确性和功能体现的情况下，INT4模型能节约更多功耗，与INT8比较完成90%的功能进步和60%的能效进步。

本年，高通还提出了一种名为LR-QAT（低秩量化感知练习）的算法，能使大言语模型在核算和内存运用上更高效。

LR-QAT受LoRA启示，选用了低秩重参数化的办法，引入了低秩辅佐权重，并将其放置在整数域中，在不丢掉精度的前提下完成了高效推理。

在Llama 2/3以及Mistral系列模型上的试验成果显现，在内存运用远低于全模型QAT的情况下，LR-QAT达到了相同的功能。

别的，高通还要点布局了矢量量化（VQ）技能，与传统量化办法不同，VQ考虑了参数的联合散布，可以完成更高效的紧缩和更少的信息丢掉。

编译

在AI模型被布置到硬件架构的过程中，编译器是保证其以最高功能和最低功耗高效运转的要害。

编译包含核算图的切分、映射、排序和调度等过程。

高通在传统编译器技能、多面体AI修改器和修改器组合优化AI方面都积累了不少技能成果。

比方，高通AI引擎Direct结构根据高通Hexagon NPU的硬件架构和内存层级进行运算排序，在进步功能的一同，可以最大程度削减内存溢出。

硬件加快

终端侧的AI加快，离不开硬件的支撑。

在硬件方面，高通AI引擎选用异构核算架构，包含Hexagon NPU、高通Adreno GPU、高通Kryo CPU或高通Oryon CPU。

其间，Hexagon NPU在今日现已成为高通AI引擎中的要害处理器。

以第三代骁龙8移动渠道为例，Hexagon NPU在功能体现上，比前代产品快98%，一同功耗下降了40%。

架构方面，Hexagon NPU晋级了全新的微架构。与前代产品比较，更快的矢量加快器时钟速度、更强的推理技能和对更多更快的Transformer网络的支撑等等，全面进步了Hexagon NPU对生成式AI的呼应才能，使得手机上的大模型“秒答”用户发问成为或许。

Hexagon NPU之外，第三代骁龙8在高通传感器中枢上也下了更多功夫：添加下一代微型NPU，AI功能进步3.5倍，内存添加30%。

现实上，作为大模型/AIGC运用向终端侧搬迁的潮流中最受注重的技能代表之一，以上要点之外，高通的AI研讨布局早已延伸到更广泛的范畴之中。

以CVPR 2024当选论文为例，在生成式AI方面，高通提出了进步分散模型功率的办法Clockwork Diffusion，在进步Stable Diffusion v1.5感知得分的一同，能使算力耗费最高下降32%，使得SD模型更适用于低功耗端侧设备。

而且不止于手机，针对XR和自动驾驶范畴的实践需求，高通还研讨了高效多视图视频紧缩办法（LLSS）等。

在当时的热门研讨范畴，比方AI视频生成方面，高通也有新动作：

正在开发面向终端侧AI的高效视频架构。例如，对视频到视频的生成式AI技能FAIRY进行优化。在FAIRY第一阶段，从锚定帧提取状况。在第二阶段，跨剩下帧修改视频。优化示例包含：跨帧优化、高效instructPix2Pix和图画/文本引导调理。

底层技能驱动AI立异

大模型运用是当下的大势所趋。而当运用开展的程度更加深化，一个要害问题也更加明亮：

运用立异的演进速度，取决于技能基座是否厚实结实。

这儿的技能基座，指的不只是根底模型自身，也包含从模型量化紧缩到布置的全栈AI优化。

可以这样了解，如果说根底模型决议了大模型运用作用的上限，那么一系列AI优化技能，就决议了终端侧大模型运用体会的下限。

作为一般顾客，值得等待的是，像高通这样的技能厂商，不只正在理论研讨方面快马加鞭，其为运用、神经网络模型、算法、软件和硬件的全栈AI研讨和优化，也已加快在实践中布置。

以高通AI软件栈为例。这是一套包容了很多AI技能的东西包，全面支撑各种干流AI结构、不同操作系统和各类编程言语，能进步各种AI软件在智能终端上的兼容性。

其间还包含高通AI Studio，相当于将高通一切AI东西集成到了一同，包含AI模型增效东西包、模型分析器和神经网络架构查找（NAS）等。

更为要害的是，根据高通AI软件栈，只需一次开发，开发者就能跨不同设备随时随地布置相应的AI模型。

便是说，高通AI软件栈像是一个“转换器”，可以处理大模型在品种繁复的智能终端中落地所面对的一大难题——跨设备搬迁。

这样一来，大模型运用不只能从云端走向手机端，还能被更快速地塞进轿车、XR、PC和物联网设备中。

站在现在的时刻节点，人人都在等待改动国际的技能潮流翻腾出更汹涌的巨浪。

而站立潮头的弄潮儿们正在再次验证技能史中一次次被探明的现实：引领技能之先的人和安排，无不具有注重根底技能的“发明家文明”。

不止是追逐最新的技能趋势，更要提早布局，抢先霸占根本计划。

高通在《让AI触手可及》白皮书中相同提到了这一点：

高通深耕AI研制超越15年，一直致力于让感知、推理和行为等中心才能在终端上无处不在。

这些AI研讨和在此之上产出的论文，影响的不只是高通的技能布局，也正在影响整个职业的AI开展。

大模型年代，“发明家文明”仍在连续。

也正是这样的文明，继续促进着新技能的普及化，促进着商场的竞赛和昌盛，带动起更多的职业立异和开展。

你觉得呢？

— 完 —

文章版权声明：除非注明，否则均为ZBLOG原创文章，转载或复制请以超链接形式并注明出处。

相关阅读

发表评论取消回复

评论列表（有 15 条评论，218人围观）

青菜还没我高 V 游客沙发

分的一同，能使算力耗费最高下降32%，使得SD模型更适用于低功耗端侧设备。而且不止于手机，针对XR和自动驾驶范畴的实践需求，高通还研讨了高效多视图视频紧缩办法（LLSS）等。在当时的热门研讨范畴，比方AI视频生成方面，高通也有新动作：正在开发面向终端侧AI的高效视频架构。例如

09-03 回复

莪难过 V 游客椅子

指日可下。但在顶会上，更加遭到注重的是，demo之外，高通的一系列最新论文们，还具体地揭开了运用背面需求要点布局的要害技能。量化其间之一，便是量化。在手机等终端设备上布置大模型/AIGC运用，要处理的一大要点是怎么完成高效能的推理。

09-03 回复

春︼秋无味 V 游客板凳

技能驱动AI立异大模型运用是当下的大势所趋。而当运用开展的程度更加深化，一个要害问题也更加明亮：运用立异的演进速度，取决于技能基座是否厚实结实。这儿的技能基座，指的不只是根底模型自身，也包含从模型量化紧缩到布置的全栈AI优化。可以这样了解，如果说根底模型决议了大模型运用作用的上限，那么一

09-03 回复

相信我好吗 V 游客凉席

研讨工作发现，关于生成式AI来说，因为根据Transformer的大言语模型遭到内存的约束，在量化到8位（INT8）或4位（INT4）权重后往往可以取得大幅进步的功率优势。其间，4位权重量化不只对大言语模型可行，在练习后量化（PTQ）中相同或许，

09-03 回复

蝉儿不善舞 V 游客地板

on NPU对生成式AI的呼应才能，使得手机上的大模型“秒答”用户发问成为或许。Hexagon NPU之外，第三代骁龙8在高通传感器中枢上也下了更多功夫：添加下一代微型NPU，AI功能进步3.5倍，内存添加30%。现

09-03 回复

地z毫 V 游客 6楼

议了大模型运用作用的上限，那么一系列AI优化技能，就决议了终端侧大模型运用体会的下限。作为一般顾客，值得等待的是，像高通这样的技能厂商，不只正在理论研讨方面快马加鞭，其为运用、神经网络

09-03 回复

过去的爱 V 游客 7楼

5倍，内存添加30%。现实上，作为大模型/AIGC运用向终端侧搬迁的潮流中最受注重的技能代表之一，以上要点之外，高通的AI研讨布局早已延伸到更广泛的范畴之中。以CVPR 2024当选论文为例，在生成式AI方面，高通提出了进步分散模型功率的办法Clockwork Diffu

09-03 回复

静静嘚。 V 游客 8楼

新的技能趋势，更要提早布局，抢先霸占根本计划。高通在《让AI触手可及》白皮书中相同提到了这一点：高通深耕AI研制超越15年，一直致力于让感知、推理和行为等中心才能在终端上无处不在。这些AI研讨和在此之

09-03 回复

驭剑天涯 V 游客 9楼

高通在传统编译器技能、多面体AI修改器和修改器组合优化AI方面都积累了不少技能成果。比方，高通AI引擎Direct结构根据高通Hexagon NPU的硬件架构和内存层级进行运算排序，在进步功能的一同，可以最大程度削减内存溢出。硬件加快终端侧

09-03 回复

国产好菇凉 V 游客 10楼

这一功率进步现已超越了浮点模型。具体来说，高通的研讨标明，凭借量化感知练习（QAT）等量化研讨，许多生成式AI模型可以量化至INT4模型。在不影响准确性和功能体现的情况下，INT4模型能

09-03 回复

满脸幸福状 V 游客 11楼

的大言语模型遭到内存的约束，在量化到8位（INT8）或4位（INT4）权重后往往可以取得大幅进步的功率优势。其间，4位权重量化不只对大言语模型可行，在练习后量化（PTQ）中相同或许，并能完成最优体现。这一功率进步现已超越了浮点模型。具体来说，高通的研讨标

09-03 回复

思念在清晨 V 游客 12楼

缩和更少的信息丢掉。编译在AI模型被布置到硬件架构的过程中，编译器是保证其以最高功能和最低功耗高效运转的要害。编译包含核算图的切分、映射、排序和调度等过程。高通在传统编译器技能、多面体AI修改器和修改器组合优化AI方面都积累了不

09-03 回复

白辞 V 游客 13楼

这儿的技能基座，指的不只是根底模型自身，也包含从模型量化紧缩到布置的全栈AI优化。可以这样了解，如果说根底模型决议了大模型运用作用的上限，那么一系列AI优化技能，就决议了终端侧大模型运用体会的下限。作为一般顾客

09-03 回复

铁骑军团 V 游客 14楼

内存层级进行运算排序，在进步功能的一同，可以最大程度削减内存溢出。硬件加快终端侧的AI加快，离不开硬件的支撑。在硬件方面，高通AI引擎选用异构核算架构，包含Hexa

09-03 回复

两清。 V 游客 15楼

esearch发布于YouTube以及音频驱动的3D数字人版AI帮手——相同能在断网的情况下本地运转。重播01:10/01:10△Qualcomm Research发布于YouTubeDemo原型既出，加之手机厂商们的魔改优化，关于一般用户而言，意味着其间展示的新

09-03 回复