Echo

关注TA

大家好，我是Echo！

普罗旺斯
自由职业
写了309,679,512字

该文章投稿至Nemo社区资讯板块复制链接

大模型加速涌向移动端！ControlNet 手机出图只需 12 秒，高通 AI 掌门人：LLaMA 也只是时间问题

发布于 2023/07/13 22:48 200浏览 0回复 4,539字

大模型重塑一切的浪潮，正在加速涌向移动应用。

不久前，高通刚在 MWC 上露了一手纯靠手机跑 Stable Diffusion，15 秒就能出图的骚操作：

大模型加速涌向移动端！ControlNet 手机出图只需 12 秒，高通 AI 掌门人：LLaMA 也只是时间问题

3 个月后的 CVPR 2023 上，参数加量到 15 亿，ControlNet 也已在手机端闪亮登场，出图全程仅用了不到 12 秒：

大模型加速涌向移动端！ControlNet 手机出图只需 12 秒，高通 AI 掌门人：LLaMA 也只是时间问题

更令人意想不到的速度是，高通技术公司产品管理高级副总裁兼 AI 负责人 Ziad Asghar 透露：

从技术角度来说，把这些 10 亿 + 参数大模型搬进手机，只需要不到一个月的时间。

并且这还只是个开始。

在与量子位的交流中，Ziad 认为：

大模型正在迅速重塑人机交互的方式。这会让移动应用的使用场景和使用方式发生翻天覆地的变化。

“大模型改变终端交互方式”

每一个看过《钢铁侠》的人，都很难不羡慕钢铁侠无所不能的助手贾维斯。

大模型加速涌向移动端！ControlNet 手机出图只需 12 秒，高通 AI 掌门人：LLaMA 也只是时间问题

尽管语音助手早已不是什么新鲜事物，但其现如今的形态多少还是离科幻电影中的智能助手有点差距。

而大模型，在 Ziad 看来，正是一个破局者。

大模型有能力真正重塑我们与应用交互的方式。

这种改变的一种具体的表现，就是 all in one。

也就是说，通过大模型加持下的数字助手这一个应用入口，人们就可以在手机这样的终端上操控一切：

通过自然语言指令，数字助手能自动帮你管理所有手机上的 APP，完成办理银行业务、撰写电子邮件、制定旅程并订票等等各种操作。

大模型加速涌向移动端！ControlNet 手机出图只需 12 秒，高通 AI 掌门人：LLaMA 也只是时间问题

更为关键的是，这样的数字助手还能做到“私人订制”——

手机上的个性化数据，与能够理解文字、语音、图像、视频等多模态输入的大语言模型相结合，就能使数字助手更为精准地把握使用者的偏好。

并且这样的个性化体验，可以在不牺牲隐私的情况下实现。

从技术的角度来说，背后关键，其实就是如今把 Stable Diffusion 和 ControlNet 搬进手机的混合 AI 架构及作为支撑的量化、编译和硬件加速优化等 AI 技术。

混合 AI，指的是终端和云端协同工作，在适当场景和时间下分配 AI 计算的工作负载，以更为高效地利用算力资源。

量化、编译和硬件加速优化，则是实现混合 AI 的关键 AI 技术，受到高通等终端 AI 厂商的长期关注和押注。

量化，是将更大的模型在精度不变的情况下，从浮点数转变成整数，节省计算时间；又或是在确保模型性能的同时，对其大小进行压缩，使之更容易部署在终端。

编译器是 AI 模型能够以最高性能和最低功耗高效运行的关键。AI 编译器将输入的神经网络转化为可以在目标硬件上运行的代码，同时针对时延、性能和功耗进行优化。

硬件加速方面，以高通为例，其 AI 引擎中的关键核心 Hexagon 处理器，采用专用供电系统，支持微切片推理、INT4 精度、Transformer 网络加速等，能够在提供更高性能的同时，降低能耗和内存占用。

数据显示，Transformer 加速大幅提升了生成式 AI 中充分使用的多头注意力机制的推理速度，在使用 MobileBERT 的特定用例中能带来 4.35 倍的 AI 性能提升。

大模型加速涌向移动端！ControlNet 手机出图只需 12 秒，高通 AI 掌门人：LLaMA 也只是时间问题

以 Stable Diffusion 为例，现在，高通的研究人员通过量化、编译和硬件加速优化，已经能够在搭载第二代骁龙 8 移动平台的手机上，以 15 秒 20 步推理的速度运行这一模型，生成出 512×512 像素的图片。

大模型加速涌向移动端！ControlNet 手机出图只需 12 秒，高通 AI 掌门人：LLaMA 也只是时间问题

△ 图源油管 @TK Bay

这样一来，整个推理过程可以完全只靠手机实现 —— 开着飞行模式不联网也能做到。

这类 AI 技术的部署并非易事，Ziad 表示在相关软件、工具和硬件方面，高通准备了 2-3 年的时间。

但现在，当高通 AI 模型增效工具包、高通 AI 软件栈和高通 AI 引擎等软硬件工具齐备之后，正如前文所言，高通只花了不到一个月的时间，就实现了 Stable Diffusion 在骁龙平台上的高速运行。

也就是说，当基础技术准备就绪，包括大模型在内的生成式 AI 部署，就会更加容易，原本无法想象的“大模型部署到终端变成数字助手”，现在看来也并非不可能。

具体而言，在硬件上混合 AI 和软件 AI 技术的“双重”架构下，部署在手机等终端中的大模型，可以在终端侧根据用户习惯不断优化和更新用户画像，从而增强和打造定制化的生成式 AI 提示。这些提示会以终端侧为中心进行处理，只在必要时向云端分流任务。

大模型加速涌向移动端！ControlNet 手机出图只需 12 秒，高通 AI 掌门人：LLaMA 也只是时间问题

Ziad 也进一步向我们解释说：

云不了解你，但终端设备了解你。如果模型可以在设备上进行微调，那它的功能将非常强大。

这也是突破大模型幻觉和记忆瓶颈的方式之一。高通可以做到通过一系列技术让大模型在不联网的情况下，借助终端设备数据长时间提供“专属”服务，同时也保护了用户隐私。

值得关注的是，Ziad 还透露，在 Stable Diffusion 和 ControlNet 之外，基于高通全栈式的软件和硬件能力，研究人员正在将更多生成式 AI 模型迁移到手机之中，参数量也正在向百亿级别进发。

很快，你就会在终端上看到像 LLaMA 7B / 13B 这样的模型。一切工具已经就绪，剩下的只是时间问题。

而且，虽然目前能在终端侧部署的只是“特定”的大模型，但随着技术的不断应用成熟，能部署的大模型数量、模态类型和部署形式，都会飞速进化。Ziad 表示：

随着更多更好的 AI 算法被开源出来，我们也能更快地沿用这套软硬件技术将它们部署到终端侧，这其中就包括文生视频等各种多模态 AI。

这样来看，未来用户将自己想用的大模型迁移到手机端，成为超级助手的核心，也并非不可能实现。

大模型正在重塑移动互联网

实际上，手机上的交互变革，还只是冰山一角。

早在生成式 AI、大模型技术爆发之前，在移动互联网时代，AI 需求已经呈现出向边缘设备转移的趋势。

正如 Ziad 的观点“终端侧 AI 是 AI 的未来”一样，随着以大模型为代表的生成式 AI 浪潮加速改变人机交互方式，更多终端侧如笔记本电脑、AR / VR、汽车和物联网终端等，也都会因为这场变革迎来重塑，甚至反过来加速 AI 规模化落地。

在这个过程中，不仅硬件会诞生新的衡量标准，软件上以大模型为核心的超级 AI 应用，更是有可能出现。

首先是硬件上，由于终端侧算力会成为延展生成式 AI 落地应用不可或缺的一部分，对于移动端芯片本身来说，AI 处理能力也会日益凸显，甚至成为新的设计基准之一。

随着大模型变得更受欢迎、更多应用不断接入其能力，更多潜在的用户也会意识到大模型具备的优势，从而导致这类技术使用次数的迅猛上升。

但云端算力终究有限。Ziad 认为：

随着 AI 计算需求的增加，云端算力必然无法承载如此庞大的计算量，从而导致单次查询成本急剧增加。

要解决这一问题，就应当让更多算力需求“外溢”到终端，依靠终端算力来缓解这一问题。

为了让更多大模型在终端就能处理甚至运行，从而降低调用成本，必然需要在确保用户体验的同时，提升移动端芯片处理 AI 的能力。

长此以往，AI 处理能力会成为衡量硬件能力的 benchmark，如同过去手机芯片比拼通用算力和 ISP 影像能力一样，成为整个移动端芯片的新“赛点”。

大模型加速涌向移动端！ControlNet 手机出图只需 12 秒，高通 AI 掌门人：LLaMA 也只是时间问题

谁能在设计移动端芯片时将之考虑进去，谁就更有可能取得这场大模型较量的话语权。

不止是硬件。软件上，通过改变人机交互的方式，大模型将重塑包括娱乐、内容创作、生产力在内的所有移动应用。

在这种情况下，越来越多的大模型、或者说生成式 AI 会参与其中，重塑不同移动端 AI 应用，而这些应用随着不同移动端算力和应用场景的差异，又会有所不同：

在智能手机端，正如前文所述，这种重塑会率先出现在搜索和“智能助手”上。例如，只需要一句“安排 5 人会议”，大模型就能将以往需要用电子邮件反复确认的消息简化成一条指令，自动发送到其他人的日历上。

大模型加速涌向移动端！ControlNet 手机出图只需 12 秒，高通 AI 掌门人：LLaMA 也只是时间问题

而在笔记本电脑和 PC 上，最大的影响可能是工具生产效率的提升，如使用 Office 的方式不再需要是依靠打字输入内容，而是聊聊天就能完成自己想要写的报告、处理的 PPT。

至于在汽车端，率先受到影响的可能会是数字助理和自动驾驶软件，像使用导航软件时不再需要点击目的地，而是直接告诉它“我想去 XX，中途安排一个吃饭的地点，别太贵”，大模型就能读懂人话，自动规划汽车路线。

大模型加速涌向移动端！ControlNet 手机出图只需 12 秒，高通 AI 掌门人：LLaMA 也只是时间问题

又或是 XR 更吸引人的应用重塑，在于 3D 内容创作和沉浸式体验；物联网的改变，则可能发生在运营效率和客户支持应用上……

大模型加速涌向移动端！ControlNet 手机出图只需 12 秒，高通 AI 掌门人：LLaMA 也只是时间问题

当然，这并不意味着 AI 小模型的“消失”。大模型出现之前，图像应用已经成为移动端 AI 落地最显著的领域，包括 AI 修图、暗景视频拍摄去噪算法等在内已有不少成熟的 AI 应用。

Ziad 认为，生成式 AI 的出现并不会替代已有 AI 应用，甚至在其刺激下，CPU、GPU、AI 处理器的升级进化，会进一步提升去噪等传统 AI 算法的能力。

同时，移动端应用之间并非“孤岛”。无论智能手机、电脑、汽车、物联网还是 XR，一旦大模型促使某个真正的“杀手级”应用出现，势必也会在各个移动端之间部署。

因此在这波大模型浪潮下，如何让开发的应用快速适配到不同移动端，实现“一次开发多端互联”，也是不可或缺的技术趋势。

总而言之，从硬件的芯片设计、软件的应用程序，到应用的整体开发方式，大模型都在给移动端、甚至是整个移动互联网带来改变。

那么，高通在这场大模型变革浪潮中会扮演什么样的角色？

Ziad 认为，高通将会领导技术前沿，成为引领这场变革的核心：

在终端侧，无论是从硬件还是软件而言，高通都处在领先地位。不仅仅是手机，在电脑、AR、VR、汽车、物联网等领域都是如此。

大模型加速涌向移动端！ControlNet 手机出图只需 12 秒，高通 AI 掌门人：LLaMA 也只是时间问题

而这份信心的来源，是高通长期的 AI 技术积累，“一切工具都已经就绪”。

无论是硬件上的 Hexagon AI 处理器、让生成式 AI 在云端和终端之间“无缝”应用的混合 AI，还是软件上所具备的量化、压缩、神经网络架构搜索（NAS）和编译等技术，高通都已经具备了将大模型随时应用到终端侧的技术储备。

一旦成功将大模型部署到某个终端侧，如智能手机，就能通过高通 AI 软件栈将之迅速部署到其他所有端侧设备上，进一步加速大模型的规模化落地。

像 10 亿参数 Stable Diffusion 模型，在部署到手机上之后，也已经实现在搭载骁龙计算平台的笔记本上运行。

大模型加速涌向移动端！ControlNet 手机出图只需 12 秒，高通 AI 掌门人：LLaMA 也只是时间问题

面对这波大模型浪潮下生成式 AI 带来的机遇和挑战，不少科技公司都在寻找应对之策，以探求如何跟进其中的技术。

至少在终端侧，高通已经以技术玩家的身份，为行业率先打了个样。

One More Thing

在这波生成式 AI 热潮下，大模型是否可能带来新的如微信一样的“杀手级”应用？高通如何看待这个观点？

Ziad 回答称，可能会，而且这类“杀手级”应用，更可能率先在中国出现：

如果按发展趋势来看的话，中国确实可能会更快出现这类应用。

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。

本文由LinkNemo爬虫[Echo]采集自[https://www.ithome.com/0/705/715.htm]

点了个评