当前位置:首页 -- 新闻资讯
Arm 将 v9 引入 IoT,将 GenAI 引入边缘设备


Arm 将 v9 引入 IoT,将 GenAI 引入边缘设备

Arm 推出了一款新的 Cortex-A CPU 内核,旨在将生成式 AI 引入边缘设备。Cortex-A320 是首款用于物联网的 Arm v9 内核,与 Arm 的 Ethos-U85 NPU 配合使用,它将在物联网设备中实现生成式和代理式 AI 用例,包括具有超过 10 亿个参数的模型。

“就在几年前,边缘 AI 工作负载比现在简单得多,专注于基本的降噪或异常检测,”Arm 物联网业务线高级副总裁兼总经理 Paul Williamson 说,“但现在工作负载变得更加复杂,我们正在努力满足更复杂的用例的需求。

他说,这些用例包括大型模型和 AI 代理

Williamson 说:“这不仅仅是向前迈出的一步,它代表了我们处理边缘计算和 AI 处理方式的根本转变,我们相信它将在未来几年推动边缘 AI 革命。



升级到 Arm v9 架构使 Cortex-A320 与位于 Arm v8 上的前身 A35 相比具有更好的 AI 性能和更好的安全功能。新指令将 GEMM(矩阵乘法)提高了一个数量级,标量计算速度提高了 30%。SVE2 (scalable vector extension 2) 用于矢量处理;这是 Arm 的 Neon 矢量扩展和公司的 SIMD(单指令、多数据)指令集 SVE 的组合。增加了对 AI 友好数据类型的支持,包括 BF16。一个集群中最多可以配置四个 Cortex-A320 内核。

至关重要的是,作为新平台的一部分,新的 CPU 内核将能够直接驱动 Ethos-U85 NPU,这是以前为 Cortex-M 内核保留的功能。支持常见 transformer作的 NPU 现在可以通过 A320 访问更大的内存空间,这对于大型模型推理是必需的。

Arm Cortex-A320 将允许 Ethos-U85 访问比 Cortex-M85 更大的内存地址空间,这对于运行大型语言模型至关重要(来源:Arm)


“具有更好内存访问性能的系统对于执行更复杂的用例变得越来越必要,”Williamson 说。“Cortex-A 处理器解决了这一挑战,因为它们比基于 Cortex-M 的平台具有对更大可寻址内存的内在支持,并且在处理多层内存访问延迟方面更加灵活。”

结合使用后,Arm 预计 Cortex-A320 和 Ethos-U85 的性能将提高约 8×,而驱动 NPU 的 Cortex-M85 则不同。

Cortex-A320 还可以利用 Arm v9 的安全功能。指针身份验证和分支目标识别可缓解面向跳转和返回的编程攻击。Williamson 补充说,Arm 的内存标记扩展还使黑客更难利用内存安全问题

软件

作为 Cortex-A CPU,A320 可以利用 Arm 的 Cortex-A AI 内核库,统称为 Kleidi AI。

Williamson 说,在许多用例中,即使系统具有 NPU,在 CPU 上运行 AI 工作负载也可能是高效的。他的例子是一个相机系统,它使用 NPU 进行始终在线的图像处理,然后拍摄标记为有趣的图像,并在 CPU 上使用小型 LLM 处理它们。

“[在那种情况下],直接在 CPU 上运行它可能更有效,因为你没有卸载到神经处理器和更改上下文的开销,”他说。

对于这些情况,A320 需要优化的 AI 性能。KleidiAI 去年在客户端计算领域为 Cortex-A 推出,但 A320 将把它带到物联网中。

采用边缘 AI 的主要障碍之一是软件开发和部署的复杂性。Arm 确保了跨 Cortex-A 内核的软件兼容性,因此现有代码可以在 A320 上使用。

它与 Linux 和 Android 开箱即用兼容,但也支持常见的实时作系统,因此如果需要,可以为 MCU 流程开发的代码可以迁移到具有更大内存地址空间的系统。通过这种方式,A320 为当今基于 Cortex-M 的 AI 工作负载提供了一条面向未来的途径。

“这使 [开发人员] 能够访问过去实时系统可能无法获得的 AI 模型,”Williamson 说。“我认为你会看到一些有趣的全新配置,这些配置扩展了以前在微控制器中完成的边界,但也为基于 Linux 的开发人员提供了优化的性能。”

基于 Cortex-A320 的产品已经在与客户一起开发中,Williamson 预计明年将看到该内核进入硅片。