据EE Times报道,Kinara 最近推出了第二代边缘 AI 加速器 Ara-2,它可以在芯片的 6W 功率范围内运行具有多达 300 亿个 (INT4) 参数的生成 AI 模型。Kinara 还演示了运行 Llama2-7B 的 Ara-2 每秒生成数十个令牌,或运行 StableDiffusion 1.4 在 10 秒内进行 20 次迭代。Ara-2 针对生成式 AI 工作负载进行了优化,包括边缘服务器和边缘设备应用程序的图像和文本生成。该公司将继续提供其面向视觉的第一代芯片 Ara-1 和 Ara-2。
“让它发挥作用的唯一方法是降低成本,而这正是我们所提供的,”他说。“以更高的处理效率将生成式人工智能转移到边缘,你将获得更低的成本,而且显然隐私和可靠性是大问题...... 你可以通过将模型推向边缘来解决这个问题。”
在边缘运行生成式人工智能还提供了利用特定上下文信息来提高准确性的机会。
“总的来说,我们看到更加个性化、更加定制的模型正在走向边缘,并且从性能、隐私和成本的角度来看都有优势,”他说。
第二代边缘AI大升级
Kinara 的第二代神经核心具有与第一代类似的整体架构和 AI 优化指令集,但它比第一代更大,每个核心的 ALU 数量是第一代的两倍。Ara-2 仍然是 8 核设计,但其性能比 Ara-1 高 5-8 倍。
Kinara 首席架构师 Wajahat Qadeer 告诉 EE Times:“从 Ara-1 到 Ara-2,我们大大提高了核心的利用率。” “效率显着提高。我们增加了内核中 ALU 的数量,但效率是我们能够获得比 Ara-1 更好 5-8 倍性能的原因。”
Qadeer 表示,新内核增加了 VLIW(超长指令字)功能,针对 AI 工作负载进行了调整,这有助于避免加载/存储瓶颈。(VLIW 通常用于 AI 加速器,因为它支持指令级并行性,这对于 AI 工作负载来说是理想的)。
矩阵乘法支持已得到增强,以支持变压器网络,包括 LLM 和 ViT(视觉变压器)。相同的神经核心可以处理常见的激活函数,如 softmax 和 ReLu。
添加了对 LLM 等大型网络有用的 INT4 支持以及 Microsoft 的特殊 FP16 格式MSFP16。(MSFP16 使用多个尾数的共享指数来提高计算效率)。
Ara-2 还具有增强的内存结构,增加了内部和外部带宽,以满足法学硕士的需求。第二代芯片可寻址高达 16 GB LPDDR4x。
该芯片有一个 L2 共享内存,这是一个软件控制的内存(不是缓存,因为数据到达的时间和延迟方面不太可预测)。数据流引擎控制数据从外部到共享内存以及从共享到本地内存(计算核心中的 L1)的传输。
“编译器是我们的主要优势,”Qadeer 说。“我们的编译器对芯片了如指掌,它能够在无需访问芯片的情况下确定每个操作员的数据流,然后在芯片上忠实地再现该时间表。”
还有处理视觉后处理的浮点单元(FP32 和 FP16)。Ara-2 还提供安全启动、加密内存访问和安全主机接口。
边缘AI迎来爆发
在新的科技浪潮中,边缘智能正日益崭露头角。
它代表着一种新的计算范式,将AI或大模型应用到接近数据源的边缘设备和传感器中,而不是依赖传统的云计算。
目前的边缘AI芯片主要出现在消费类电子设备,其中高性能手机占据了大部分的消费级别的应用边缘AI芯片市场,边缘AI被内置到手机主处理器AP中,但集成进AP的AI功能只掌握在少数几家巨头手中(比如苹果/三星/华为手机厂商以及高通、联发科和紫光展锐等手机AP供应商),对大部分AI芯片初创公司只能望尘莫及。
然而,边缘AI芯片正越来越多地应用在非消费类设备和场合,比如智能安防、ADAS/自动驾驶、智能家居、可穿戴智能设备,以及公共场景、商业和工业场景的AI应用,如智能交通、智慧城市、工厂机器视觉、机器人和AGV等。这些新兴的AIoT和工业物联网应用场景为众多边缘AI芯片设计公司带来更多机会,风投也嗅到了这里蕴含的巨大商机。因此,无论全球还是国内市场,都有越来越多的AI芯片初创公司获得融资。
但近年来短短数年间获得巨大增长且成功上市的AI芯片公司并不多见,更遑论得到美国等成熟市场芯片行业的认可,今年成功登陆美国纳斯达克市场的ICG(聪链集团),或许会是一个较为罕见的典型特例。而好消息是,ICG也开始瞄准AI芯片这一片潜藏着巨大机遇尚处于发展早期阶段的领域,它也留意到边缘AI里面那些“触手可及”同时具备长远商业应用场景的机会。
据STL Partners数据显示,边缘计算潜在市场将在10年内以48%的复合年增长率从2020年的90亿美元增长到2030年的4450亿美元,其中边缘基础设施的增长速度是最快的,而众所周知,边缘AI芯片处于核心位置,具有充分的战略卡位意义。
亿欧智库数据显示,2021年我国边缘计算市场规模已经达到427.9亿元,其中边缘硬件市场规模为281.7亿元,边缘软件与服务市场规模达146.2亿元,2021-2025年中国边缘计算产业规模预计年复合增速达到46.81%,2025年边缘计算市场整体规模将达1987.68亿元。而AI和大模型在今年出现了重大突破之后,以前的预测几乎全部面临重估——换而言之,在保守假设之下,整个中国边缘计算产业规模预计将比原估计至少翻了近一番,很快就会来到3000-4000亿规模左右的预测区间,关键取决于2024年AI应用的爆发式增长。
英飞凌、ST等大厂竞相布局
有初创公司表示,已感受到来自联发科、联咏和瑞昱等IC设计厂商的压力,这些厂商均在加紧开发AI芯片。消息人士称,AI处理器针对不同的应用有不同的等级,边缘AI芯片的性能要求已能够与中高端智能手机AP(应用处理器)相媲美。
意法半导体(ST)已经推出了边缘AI加速微处理器——第二代STM32 MPU。该处理器提高了工业和物联网边缘应用的性能和安全性,预计将于2024上半年批量生产。
意法半导体执行副总裁Ricardo De Sa Earp表示:“新的微处理器进一步加大了公司在应用处理器方面的投资,将64位内核与边缘AI加速、高级多媒体功能、图形处理和数字连接相结合。”
同样瞄准边缘AI芯片领域的大厂还有英飞凌。早前,英飞凌宣布收购初创公司Imagimob,后者是一家边缘设备机器学习解决方案提供商,专注于边缘AI市场。公告提到,通过此次收购,英飞凌将显著补强其AI产品。
除了芯片端,大模型玩家也在加速布局移动/边缘端的相关应用。日前举办的谷歌I/O大会上,谷歌宣布其PaLM2大模型的最轻量化版本Gecko可在移动端运行,开拓了AI模型在边缘侧推理的场景。对此,民生证券表示,在边缘侧推理的轻量化大语言模型有望带动边缘AI计算成长,加速边缘硬件市场更新迭代。
事实上,随着以ChatGPT为代表的AI大模型的衍生应用不断推出,许多终端开始实现智能化体验的升级,从而产生了海量的终端数据分析处理需求。在此背景下,边缘端AI应运而生。此外,边缘算力还具备低时延、高安全、隐私性较好等优势,符合未来AIGC时代,对于AI创作所有权及隐私权的要求。