大模型使用新战场:揭秘终端侧AI竞赛要害|智在终端
文章最后更新时间:2024年09月03日
鱼羊 发自 凹非寺
量子位 | 大众号 QbitAI
2024年曩昔2/3,大模型范畴的一个一致开端更加明晰:
AI技能的真实价值在于其普惠性。没有运用,根底模型将无法发挥其价值。
于是乎,回忆这大半年,从互联网大厂到手机厂商,各路人马都在探究AI年代Killer APP的道路上狂奔。这股风潮,也开端在尖端学术会议中暴露踪影。
其间被职业、学术界都投以注重的一个中心问题便是:
在大模型“力大砖飞”的布景之下,AIGC运用要怎么在手机等算力有限的终端设备上更丝滑地落地呢?
△Midjourney生成
这段时刻以来,ICML(国际机器学习大会)、CVPR(IEEE国际核算机视觉与模式识别会议)等顶会上的最新技能共享和当选论文,正在揭开更多细节。
是时分总结一下了。
AI运用背面,我们都在聚集哪些研讨?
先来看看,AI运用从云端迈向终端,现在开展到何种程度了。
现在,在大模型/AIGC运用方面,很多安卓手机厂商都与高通保持着深度协作。
在CVPR 2024等顶会上,高通的技能Demo,招引了不少眼球。
比方,在安卓手机上,完成多模态大模型(LLaVA)的本地布置:
△Qualcomm Research发布于YouTube
这是一个70亿参数等级的多模态大模型,支撑多品种型的数据输入,包含文本和图画。也支撑环绕图画的多轮对话。
就像这样,丢给它一张小狗的相片,它不只能描绘相片信息,还能接着和你聊狗狗适不适合家养之类的论题。
△量子位在巴塞罗那MWC高通展台拍照的官方演示Demo
高通还展示了在安卓手机上运转LoRA的实例。
△Qualcomm Research发布于YouTube
以及音频驱动的3D数字人版AI帮手——相同能在断网的情况下本地运转。
重播
01:10/01:10
△Qualcomm Research发布于YouTube
Demo原型既出,加之手机厂商们的魔改优化,关于一般用户而言,意味着其间展示的新玩法新或许,在我们自个儿的终端设备上现已指日可下。
但在顶会上,更加遭到注重的是,demo之外,高通的一系列最新论文们,还具体地揭开了运用背面需求要点布局的要害技能。
量化
其间之一,便是量化。
在手机等终端设备上布置大模型/AIGC运用,要处理的一大要点是怎么完成高效能的推理。
而量化是进步核算功能和内存功率最有用的办法之一。而且高通以为,运用低位数整型精度对高能效推理至关重要。
高通的多项研讨工作发现,关于生成式AI来说,因为根据Transformer的大言语模型遭到内存的约束,在量化到8位(INT8)或4位(INT4)权重后往往可以取得大幅进步的功率优势。
其间,4位权重量化不只对大言语模型可行,在练习后量化(PTQ)中相同或许,并能完成最优体现。这一功率进步现已超越了浮点模型。
具体来说,高通的研讨标明,凭借量化感知练习(QAT)等量化研讨,许多生成式AI模型可以量化至INT4模型。
在不影响准确性和功能体现的情况下,INT4模型能节约更多功耗,与INT8比较完成90%的功能进步和60%的能效进步。
本年,高通还提出了一种名为LR-QAT(低秩量化感知练习)的算法,能使大言语模型在核算和内存运用上更高效。
LR-QAT受LoRA启示,选用了低秩重参数化的办法,引入了低秩辅佐权重,并将其放置在整数域中,在不丢掉精度的前提下完成了高效推理。
在Llama 2/3以及Mistral系列模型上的试验成果显现,在内存运用远低于全模型QAT的情况下,LR-QAT达到了相同的功能。
别的,高通还要点布局了矢量量化(VQ)技能,与传统量化办法不同,VQ考虑了参数的联合散布,可以完成更高效的紧缩和更少的信息丢掉。
编译
在AI模型被布置到硬件架构的过程中,编译器是保证其以最高功能和最低功耗高效运转的要害。
编译包含核算图的切分、映射、排序和调度等过程。
高通在传统编译器技能、多面体AI修改器和修改器组合优化AI方面都积累了不少技能成果。
比方,高通AI引擎Direct结构根据高通Hexagon NPU的硬件架构和内存层级进行运算排序,在进步功能的一同,可以最大程度削减内存溢出。
硬件加快
终端侧的AI加快,离不开硬件的支撑。
在硬件方面,高通AI引擎选用异构核算架构,包含Hexagon NPU、高通Adreno GPU、高通Kryo CPU或高通Oryon CPU。
其间,Hexagon NPU在今日现已成为高通AI引擎中的要害处理器。
以第三代骁龙8移动渠道为例,Hexagon NPU在功能体现上,比前代产品快98%,一同功耗下降了40%。
架构方面,Hexagon NPU晋级了全新的微架构。与前代产品比较,更快的矢量加快器时钟速度、更强的推理技能和对更多更快的Transformer网络的支撑等等,全面进步了Hexagon NPU对生成式AI的呼应才能,使得手机上的大模型“秒答”用户发问成为或许。
Hexagon NPU之外,第三代骁龙8在高通传感器中枢上也下了更多功夫:添加下一代微型NPU,AI功能进步3.5倍,内存添加30%。
现实上,作为大模型/AIGC运用向终端侧搬迁的潮流中最受注重的技能代表之一,以上要点之外,高通的AI研讨布局早已延伸到更广泛的范畴之中。
以CVPR 2024当选论文为例,在生成式AI方面,高通提出了进步分散模型功率的办法Clockwork Diffusion,在进步Stable Diffusion v1.5感知得分的一同,能使算力耗费最高下降32%,使得SD模型更适用于低功耗端侧设备。
而且不止于手机,针对XR和自动驾驶范畴的实践需求,高通还研讨了高效多视图视频紧缩办法(LLSS)等。
在当时的热门研讨范畴,比方AI视频生成方面,高通也有新动作:
正在开发面向终端侧AI的高效视频架构。例如,对视频到视频的生成式AI技能FAIRY进行优化。在FAIRY第一阶段,从锚定帧提取状况。在第二阶段,跨剩下帧修改视频。优化示例包含:跨帧优化、高效instructPix2Pix和图画/文本引导调理。
底层技能驱动AI立异
大模型运用是当下的大势所趋。而当运用开展的程度更加深化,一个要害问题也更加明亮:
运用立异的演进速度,取决于技能基座是否厚实结实。
这儿的技能基座,指的不只是根底模型自身,也包含从模型量化紧缩到布置的全栈AI优化。
可以这样了解,如果说根底模型决议了大模型运用作用的上限,那么一系列AI优化技能,就决议了终端侧大模型运用体会的下限。
作为一般顾客,值得等待的是,像高通这样的技能厂商,不只正在理论研讨方面快马加鞭,其为运用、神经网络模型、算法、软件和硬件的全栈AI研讨和优化,也已加快在实践中布置。
以高通AI软件栈为例。这是一套包容了很多AI技能的东西包,全面支撑各种干流AI结构、不同操作系统和各类编程言语,能进步各种AI软件在智能终端上的兼容性。
其间还包含高通AI Studio,相当于将高通一切AI东西集成到了一同,包含AI模型增效东西包、模型分析器和神经网络架构查找(NAS)等。
更为要害的是,根据高通AI软件栈,只需一次开发,开发者就能跨不同设备随时随地布置相应的AI模型。
便是说,高通AI软件栈像是一个“转换器”,可以处理大模型在品种繁复的智能终端中落地所面对的一大难题——跨设备搬迁。
这样一来,大模型运用不只能从云端走向手机端,还能被更快速地塞进轿车、XR、PC和物联网设备中。
站在现在的时刻节点,人人都在等待改动国际的技能潮流翻腾出更汹涌的巨浪。
而站立潮头的弄潮儿们正在再次验证技能史中一次次被探明的现实:引领技能之先的人和安排,无不具有注重根底技能的“发明家文明”。
不止是追逐最新的技能趋势,更要提早布局,抢先霸占根本计划。
高通在《让AI触手可及》白皮书中相同提到了这一点:
高通深耕AI研制超越15年,一直致力于让感知、推理和行为等中心才能在终端上无处不在。
这些AI研讨和在此之上产出的论文,影响的不只是高通的技能布局,也正在影响整个职业的AI开展。
大模型年代,“发明家文明”仍在连续。
也正是这样的文明,继续促进着新技能的普及化,促进着商场的竞赛和昌盛,带动起更多的职业立异和开展。
你觉得呢?
— 完 —
发表评论