同城58网 软件 高通用第二代骁龙7+,给手机芯片来了次降维打击

高通用第二代骁龙7+,给手机芯片来了次降维打击

机器之心原创

作者:泽南

上星期,OpenAI 发布 GPT-4 让语言大模型的发展进入了新纪元,AI 的智商显著提高,还有了识别图像的多模态能力,微软也宣布 GPT-4 进入必应搜索和 Microsoft 365。

在另一方面,人们也越来越担忧大模型对算力设施的挑战。此前人们估计,以 2 月份的用户数量计算,OpenAI 商用部署 ChatGPT 需要动用 3 万块英伟达 A100 来进行推理,这显然不是个可以接受的数字。面对大规模应用,越来越多的人正在探索减少算力需求的方法。

其实在深度优化,解决 AI 算力难题的方向上,已经有人做出了成效。2 月份在巴塞罗那举行的世界移动通信大会(MWC)上,高通展示了全球首个在安卓手机上跑 AI 画图大模型的能力。而就在前不久,高通又宣布了最新的移动平台,第二代骁龙 7+。

现在,AI 生成模型已经可以实时地在手机上运行了,而且不是个例。

AI 生成模型,100% 跑在手机上

在 ChatGPT 之前,AI 作画是科技领域热度最高的名词:通过输入文本提示,经过几十亿图像数据集训练的 AI 模型就可以根据人类指令生成栩栩如生的图像,也可以用来帮你替换、更改已有的图像。

Stable Diffusion 是流行的开源 AI 画图工具,常规版本的参数量超过 10 亿,其中编码了大量语言和视觉知识,几乎可以生成任何你能想象到的图片,因此也需要在云端运行,或者采用显存大于 6GB 的台式机 GPU 进行计算。

然而高通展示的手机跑 Stable Diffusion 绝活,直接用一台搭载骁龙 8 Gen 2 的手机就完成了,100% 本地运行,正如高通 CEO 克里斯蒂亚诺・安蒙(Cristiano Amon)所说:「你就算打开飞行模式也照样跑。」

生成 Stable Diffusion 的提示词:「Super cute fluffy cat warrior in armor, photorealistic, 4K, ultra detailed, vray rendering, unreal engine.」

Stable Diffusion 并不是个单一模型,而是由多个部分和模型一起构成的系统。在经过高通 AI 全栈优化后,人们可以在输入提示词后的 15 秒内获得 512 × 512 像素的图像,完成从文本输入到成型图像的 20 个推理步骤,这个速度可以与云端推理速度相当,用户文本输入也完全不受约束。

对于尝试过自己调扩散模型的人来说,即使在高配置笔记本电脑上以这种方式生成图像也需要几分钟时间,手机 AI 画图的能力着实有些吓人。

高通这次的工作来自于自家的人工智能研究团队高通 AI 研究院,充分利用了高通人工智能平台和软件开发工具,包括高通 AI 引擎和高通 AI 软件栈。

具体来说,在 Stable Diffusion 上,研究人员从 Hugging Face 上的 FP32 version 1-5 版开源模型入手,通过量化、编译和硬件加速进行优化,从而将其塞进了手机里。

为了将模型从 FP32 缩成 INT8,高通使用 AI 模型增效工具包 (AIMET) 的训练后量化,这是一个 AI 研究团队创建的技术开发工具。量化不仅可以提高性能,还可以通过让模型在专用的 AI 计算单元上高效运行,并减少内存带宽需求的方式来减少手机能耗。这些技术可用于 Stable Diffusion 中的所有组件模型,包括基于 transformer 的文本编码器、VAE 解码器和 UNet。

随后,研究人员使用高通 AI 引擎框架直接将神经网络转为可在目标硬件上高效运行的程序,其可以根据移动端 Hexagon 处理器的硬件架构和内存层次结构对操作进行排序实现自动优化。

高通研究人员希望通过不断改进继续降低延迟,提升准确性,他们还展望了未来能够在终端侧使用 Stable Diffusion 模型实现的更多应用:包括图像编辑、图像修复、风格转换、超分辨率等。

能本地运行的 AIGC,或许才是真正可以大规模应用的 AIGC:云端运行算法总会面临延迟、带宽和成本的挑战。高通 CEO 克里斯蒂亚诺・安蒙曾对外媒表示,在未来,大语言模型将能完全在智能手机中实现内容生成,无需连接到互联网也能正常工作。

正如对运行 Stable Diffusion 所做的一样,在移动端运行 AI 算法需要从上到下进行整体的优化。高通表示,为实现这一目标而进行的所有全栈研究都将融入自家的高通 AI 软件栈。这意味着笔记本电脑、XR 眼镜等大量设备也能从中受益。

高通 AI 软件栈,是一套完整的技术体系:

去年 6 月,高通宣布了旗下 AI 技术产品的统一,全新的高通 AI 软件栈(Qualcomm AI Stack)纵向打通了应用程序、神经网络模型、算法、软件层和硬件的优化,在横向实现了跨学科的合作。

对于开发人员来说,现在人们能使用 TensorFlow、PyTorch 等流行框架进行开发,只需使用高通 AI 软件栈,就能在不同的产品和层级之间进行模型开发和迁移,并获得加速,实现了真正的「一次开发,到处部署」,节省大量成本和资源。

随着 AI 大模型开始转向移动端,高通打造的智能网联边缘的愿景正在我们的眼前加速成为现实,几年前还被认为不可能的事情,现在正在不断发生。

实现越级体验

在高通的看家本领芯片方面,长期的努力最近也收获了新的成果。

自骁龙 820 以来,高通的骁龙移动芯片就加入了高通 AI 引擎,专门负责 AI 任务处理。而在去年 11 月推出的第二代骁龙 8 上,AI 引擎的主要组成部分 Hexagon 处理器升级了微切片推理和更大的张量加速器,并首次在手机端实现 INT4 精度格式的支持,因此在 AI 推理时性能最多可以提高 4.35 倍,能效提升 60%。

通过紧密的软硬件协同能力,高通在配备 Hexagon 处理器的芯片上实现了业界领先的端侧 AI 性能。第二代骁龙 8 上新增的微切片推理功能,能帮助 Stable Diffusion 等大型模型高效运行。此外,由于在 Stable Diffusion 中的组件模型中使用了多头注意力,高通平台为 MobileBERT 等 Transformer 模型所做的增强可以大幅加快推理速度,在手机跑生成模型的任务上发挥了关键作用。

骁龙在今年新一代平台上的升级为计算摄影带来了强大的基础,除此之外还打开了很多 AI 应用的大门,今年的很多旗舰机已实现了实时的多语言翻译和转录、视频 AI 增强,支持更复杂的语音指令。

高通正在将这样的能力拓展到旗舰芯片以外的系列,上周正式推出的第二代骁龙 7+ 移动平台,AI 性能相比前一代产品提升了两倍,能效同时也提升了 40%。

第二代骁龙 7 + 采用了与第一代骁龙 8 + 相同的架构,也是台积电 4nm 工艺,被认为是对友商同级产品的「降维打击」。

与旗舰级 8 系列平台相比,骁龙 7 系列更加面向主流消费级产品。但在最新发布的第二代骁龙 7+ 上,高通重新定义了一下「主流」的档次。第二代骁龙 7+ 带来了 CPU、GPU、AI、影像和能耗表现的全面升级。

在新一代 7 系列芯片上,多个旗舰级特性被首次下放,第二代骁龙 7 + 有了 Arm Cortex X2 超大核,整体 CPU 性能比上代提升了 50%,GPU 的性能则是上代的两倍。

在 AI 方面,和第二代骁龙 8 一样,第二代骁龙 7 + 也拥有集成的专用 AI 处理器和传感器中枢,提供了两倍于第一代骁龙 7 的性能,支持从活动识别到声学场景检测等情境的感知用例,以及游戏 AI 超级分辨率。

另一个从骁龙 8 系列下放的技术是 18 位的三 Spectra ISP,其允许新一代芯片支持三重曝光计算 HDR 视频捕捉,更强的低光摄影并大幅降低拍摄快门延迟。

通过新款芯片,我们可以体验到高通终端侧人工智能的最新科技,随手拍出 4K60 帧视频。

就在这个月,首批采用新芯片的手机就会面世,红米和 Realme 将会率先发布终端。

以前,电脑和手机的性能是通过 CPU 和 GPU 的频率和线程数来衡量的,但端侧 AI 处理能力现在已经成为芯片的第三个衡量标准。「能够在智能手机中创造如此强大的处理能力,并在不影响待机时间的情况下运行,这是只有高通才能做到的事情」安蒙表示。

你的下一个 AI 绘图工具,又何必是电脑?

本文来自网络,不代表本站立场,转载请注明出处:https://www.tcw58.com/n/a53719.html

代骁龙,进行,高通,手机,模型,Stable,图像,研究,运行,通用,高通,软件栈,模型,图像,骁龙

同城58网后续将为您提供丰富、全面的关于代骁龙,进行,高通,手机,模型,Stable,图像,研究,运行,通用,高通,软件栈,模型,图像,骁龙内容,让您第一时间了解到关于代骁龙,进行,高通,手机,模型,Stable,图像,研究,运行,通用,高通,软件栈,模型,图像,骁龙的热门信息。小编将持续从百度新闻、搜狗百科、微博热搜、知乎热门问答以及部分合作站点渠道收集和补充完善信息。