终端侧生成式AI:轻松了用户,忙碌了芯片
- +1 你赞过了
【天极网手机频道】有N次来场说走就走旅行的冲动,也有N+1次被繁琐行程规划打消的躺平...如果现在只需要向手机里的AI助理询问,就能快速获得定制化的出行规划,甚至连机酒都能同步完成预定,那你是不是也想马上去看一看大好河山?
这就是大模型、生成式AI在终端侧落地后的应用场景之一。那么AI助理的这些功能怎么实现?
当用户通过语音下达指令后,首先手机需要先把语音转换为文本来“理解”,需要这里可以借助OpenAI发布的一个约2.4亿参数模型——自动语音识别(ASR)模型Whisper来完成;然后,利用Llama 2或百川大语言模型基于文本内容生成文本回复;在之后通过开源TTS(Text to Speech)模型将文本转化为语音;最后,通过Skyscanner插件等应用完成机票相关预订。
用户或许只需要一两句问答,就能轻松拥有一整套计划,但手机的内“芯”却忙到飞起。对高通AI引擎而言,在处理这项需求的过程中,CPU、NPU、调制解调器等核心模块都有参与。若为AI助手定制虚拟化身形象,则还需要在此基础上添加处理环节——将大模型生成的文本回复转换为语音后,利用融合变形动画(Blendshape)技术让语音与虚拟化身的嘴型匹配,实现音话同步,并借助虚幻引擎MetaHuman完成对虚拟化身的渲染,进一步提升用户与AI助手对话的交互体验和代入感。而这里,将要用到GPU。
于是,发展终端侧生成式AI,仅靠CPU、GPU是行不通的,“NPU与异构计算成为必然选择”。
原因也很简单——专业的事儿,交给专业的“芯”。
生成式Al工作负载的复杂性、并发性和多样性需要调用芯片中所有处理器的能力,异构计算的灵活特性恰好可以应对。并且,异构计算和处理器集成能够带来峰值性能、能效、单位面积性能、芯片尺寸、工业设计以及成本等一系列提升。对于寸土寸金的终端而言,这也是助力大模型、生成式AI落地不可或缺的。毕竟,在卷AI的同时,OEM等合作伙伴还不得不考虑设计、功耗,以及给硕大的摄像模块留出足够空间。
所以,从终端部署和用户体验来看,面向手机、PC等产品,芯片厂商几乎都采取了异构计算的策略。
高通在前不久发布的《通过NPU和异构计算开启终端侧生成式AI》白皮书中对异构计算的特性做了详细介绍。
高通技术公司产品管理高级副总裁Ziad Asghar在分享中提到,高通异构计算包含CPU、GPU、NPU以及高通传感器中枢,可以针对不同负载、应用、场景来各自分配并处理擅长的任务,例如CPU更适用于传统较小模型的卷积神经网络模型(CNN),或一些特定的大语言模型(LLM);NPU的优势在于低功耗下稳定的高峰值性能,更适合大语言模型(LLM)、大视觉模型(LVM),如Stable Diffusion等;GPU在图像处理,面向高精度格式的并行处理中表现出众;高通传感器中枢能够以极低功耗运营始终开启的用例,这一点也是终端侧AI能够提供个性化生成式AI体验的关键,且进一步在本地保护用户数据隐私安全。
Ziad Asghar还表示高通平台产品在迭代时会改进每个模块的能力,这意味着不会因为某个模块出现瓶颈而影响用户体验,其中也还包括内存等集成在平台中的组件,例如最新的第三代骁龙8的NPU不仅标量、向量运算性能提升,实现张量运算核心性能高达98%的提升;集成用于图像处理的分割网络模块;支持LPDDR5x内存,适配大量数据的高速读写,让生成式AI体验更流畅。
根据高通公布的数据显示,第三代骁龙8在手机与PC端的AI性能对比竞品均能有大幅领先,覆盖了图像分类、语言理解、超级分辨率、文档摘要、文档编写等多项应用。
平台AI性能一定程度上决定了终端侧生成式AI的潜力,但想要将潜力转化为用户体验,释放更多价值,让芯片能够有条不紊地忙碌起来还只是第一步,接下来的关键就在于高通、OEM、开发者能够利用这些算力做什么。
从算力到应用
大模型、生成式AI直到2023年才“爆火”,在此之前AI已经在手机、PC、汽车、物联网等领域布局许久,如语音降噪、智能助手、AI影像等已经在潜移默化中成为“标配”,已经无需发布会上长篇累牍的介绍就能让用户如臂使指。这些“传统AI”带来的积淀一方面为当下及未来的AI应用摸索出了方向,构筑了较为成熟的应用场景,让AI从底层算力、框架到上层应用具备了完整的生态链路。但另一方面,也让大模型、生成式AI现阶段在终端侧的落地没有那种“颠覆性”创新的冲击力,毕竟很多功能即使用老旧的设备也能实现。
因此,想要让用户更快感知到“新AI”的魅力,就必须有新形态的AI应用,也必须加速终端侧大模型、生成AI的生态构建以及软硬件互联互通。
在去年的骁龙峰会期间,高通不仅推出了第三代骁龙8、骁龙X Elite等新平台,还围绕手机、PC介绍了终端侧AI及生成式AI在智能助手、环境识别、办公创作、影像拍摄等场景下的真实用例。其中有一些是原有功能的升级迭代,但更多的是发挥大模型、生成式AI特性的新应用。
时间来到2月份举行的MWC2024上,高通展示了终端侧多模态生成式AI模型,在语音文字的基础上,拓展到基于图像、音乐/音频输入并生成多轮对话的应用。这意味着终端侧AI可以“看得更多、听得更多”,从而更好地理解用户在对应场景下的诉求,并推理出更合适、准确的回复。
独木难成林,与其他芯片厂商一样,高通也与软件生态伙伴紧密协作,加速应用的开发、部署。Ziad Asghar介绍道:“高通打造的高通AI软件栈(Qualcomm AI Stack)能够支持包括TensorFlow、PyTorch、ONNX、Keras等目前主流AI框架;还支持所有主流的AI runtime,包括DirectML、TFLite、ONNX Runtime、ExecuTorch以及支持不同的编译器、数学库等AI工具。此外高通还推出了Qualcomm AI studio,为开发者提供开发过程中需要用到的相关工具,其中包括支持模型量化和压缩的高通AI模型增效工具包(AIMET),能够让模型运行更加高效。”
另外,MWC2024期间,高通还发布了高通AI Hub,为开发者提供全面优化的AI模型库(将支持超过75个AI模型),支持跨骁龙和高通平台部署,方便为不同平台打造AI应用,不仅有手机、PC,还可以覆盖汽车、XR和物联网等等,减轻开发负担。
如果终端侧生成式AI是一辆快速行驶的汽车,那么高通等芯片厂商提供的异构计算能力作用在于将道路升级为更宽阔、平坦的高速,避免算力瓶颈,“解封”车辆速度的上限;高通AI软件栈、高通AI Hub等工具包则是发动机、变速箱,让这台车有更高的运行效率;软件开发者打造的应用则是不断为汽车添砖加瓦,从而载入更多的用户、客户;来自用户的反馈、需求,则是源源不断的燃油,即使车辆再大、道路再长也不缺少驱动力。
写在最后
在较为深入地体验后,大模型、生成式AI一定有让你感到惊艳的地方,不再是动不动就让你查看网页搜索结果,而是效率、实用性、可用性对比过往AI应用的全面升级,让抽象的AI变得“看得见、摸得着、用得上”。尽管仍旧存在逻辑判断、内容理解等问题,导致生成让人啼笑皆非的结果,但短短一年多的时间,进展不可谓不快。若聚焦在落地还不足半年的终端侧AI,同样也有超出预期的表现,已经实现秒级文生图、70亿甚至百亿参数大模型的本地部署、实时动态渲染虚拟化身…对于内卷严重,却又趋于同质化的手机、PC市场而言,终端侧AI像是一线曙光照了进来。
当然,终端侧AI仍处在发展的初期阶段,还有很多难题亟待解决。比如,对比传统终端侧AI体验,怎样展现大模型、生成式AI的差异化,明确“新AI”的特性;对于消费者而言,大模型、生成式AI等应用在本地的部署、使用,仍旧存在门槛,甚至很难找到这些AI应用的入口;不同国家和地区的应用生态、用户习惯并不相同,AI落地过程中如何进行本地化部署,更好地匹配用户使用需求;第三方软件如何打通,实现场景化的多设备协同及应用互通,避免用户使用过程中的割裂感;还有这些大模型、生成式AI自身能力也需要迭代升级,并克服“一本正经胡说八道”、数据安全相关挑战...
综合来看,目前终端侧生成式AI生态还处在初期阶段,无论是软件应用、使用场景都处在构建阶段,想要让用户的好奇心转变为对产品的认可,就需要将NPU、异构计算、软件栈等能力释放成生产力、创造力。想象一下,如果手机中我们日常使用的一些应用能够充分调用端侧大模型、生成式AI的能力,那么影像内容创作、游戏娱乐体验、甚至日常社交互动,都有机会解锁新玩法。
或许困难重重,但这也是今年手机、PC等终端最值得期待的体验之一。
最新资讯
热门视频
新品评测