当前位置:首页 > 燃气灶 > 文章正文

NPU全球出货超1亿颗!芯原若何迎战大年夜模型时代的边缘计算变革?

编辑:[db:作者] 时间:2024-08-25 01:34:26

作者 | 李水青编辑 | 云鹏

芯东西6月13日宣布,今日,在2024上海国际嵌入式展期间,芯原AI专题技能研讨会举办。

NPU全球出货超1亿颗!芯原若何迎战大年夜模型时代的边缘计算变革?

芯原实行副总裁、IP奇迹部总经理戴伟进在会上透露,芯原神经网络处理器(NPU)已在环球累计出货超过1亿颗,覆盖AI视觉、AI语音、AI图像,以及AIoT/聪慧家居、AR/VR、自动驾驶、PC、智好手机、机器人等多种场景。

▲芯原实行副总裁、IP奇迹部总经理戴伟进

与此同时,芯原图形处理器(GPU)已在环球累计出货近20亿颗;芯原视频处理器(VPU)也已经赋能智能视频处理等行业。

戴伟进谈及了大模型推进边缘打算变革的机遇与寻衅,他谈道,随着大模型的爆发,我们看到在手机、AI PC、汽车等各种终端,大模型正被加速引入嵌入式系统。

本日,大模型已经运行在AI PC、医疗系统设备等浩瀚终端。
面向这些场景,芯原AI-Computing处理器技能具有可编程、可扩展、高性能、低功耗的特色。

详细来看,芯原AI-Computing IP产品体系全面覆盖数据中央、边缘做事器及端侧设备。
个中,NPU IP VIP9X00是面向推断、增量演习,GPGPU IP CC8X00是通用打算,NPU+GPU IP GC9X00AI是AI-GPU/AI-PC,Tensor Core GPU IP CCTC-MP则面向大措辞模型推理、演习。

芯原NPU IP研发副总裁查凯南谈道,NPU的发展近年来大概有三个方向:首先是DEEP AI,在很多嵌入式设备里面,要把AI跟其它的处理IP做比较紧耦合的绑定,可以方便做AI-ISP和AI Video;其余便是嵌入式设备和做事器中央。

▲芯原NPU IP研发副总裁查凯南

端侧和云端对付NPU的哀求分别是什么?

查凯南解读道,端侧更关注的是低功耗,一定要有比较好的PPA(功耗、性能和面积)。
AI性能很主要,但是功耗、面积对付端侧的IP更主要。
端着重要是要做推理,也要有一些浮点运算的能力,更关注的是低比特的量化及压缩能力。

在云端,(更主要的)一定是高性能、非常高的TOPS,它要能够去做推理跟演习,而且不只是单卡的演习推理,还要做分布式的推理演习,须要多卡多机的能力。
以是,云端须要的更多是通用的GPGPU的编程模型,须要比较高的浮点跟定点算力的配比,高精度是比较主要的,然后还要能够去接入到大的生态系统中去。

下图呈现了芯原NPU大概的架构,芯原NPU可以带浮点32去做大量通用运算,全体软件生态往上支持OpenCL等。

在过去两年,Transformer已经变成一个主导的模型架构。
芯原的NPU架构也专门对Transformer做了定制优化,包括4bit、8bit、164、168等。
芯原把权重做4bit和8bit的量化压缩,从而大大减小带宽的花费。
对付通用的矩阵运算,GEMM/GEMV,Transformer须要的大量卷积运算,以及在Transformer里有不同的Vector(向量)直接构建到里面的带宽。

据称,芯原针对Transformer干系的网络性能提升达10倍。
也便是说,在一个AI PC的40-48TOPS的算力下,芯原可以做到20Tokens/s,这个性能是相称不错的。

在软件方面,不管是端侧还是云侧,芯原都采取通用的软件栈。

运用层框架支持PyTorch、Transformer,专门针对大模型支持VLLM框架。
再往下走,有通用的算子加速库及运算图加速库、多核间通讯库,底层支持有标准的OpenCL、OpenVX等。

全体芯原的推理工具链,是芯原自研的,可以通过工具链直接导入所有类型框架;内部自嵌一些量化的功能,可以去直接天生一个非常易于支配的Generate Binary(天生二进制)。
工具链可以支持微软的ONNX Runtime,今年10月还会接入OpenAI的Triton。

基于丰富的流片跟量产履历,芯原还推出了一站式定制芯片做事平台。

芯原高等副总裁、定制芯片平台奇迹部总经理汪志伟谈道,芯原有丰富的IP储备,有六大类处理器IP:神经网络NPU、图形GPU、视频VPU、音频/语音DSP、图象旗子暗记ISP、显示处理IP,所有的这些处理器的IP都被用到了设计AIGC干系的芯片中去。
除此之外,芯原还有1500多颗数模稠浊IP和射频IP。

▲芯原高等副总裁、定制芯片平台奇迹部总经理汪志伟

“我们每年都要帮客户设计30颗以上的芯片,环球首批7nm EUV芯片在2018年就一次流片成功,已经有多颗5nm芯片成功量产跟流片。
我们在各种前辈工艺节点有着丰富的流片与量产履历,从28nm-5nm,有大量的流片与量产的履历。
”汪志伟说。
据悉,芯原SiPaaS(芯片设计平台即做事)系统级芯片设计平台已经迭代多年,一次流片成功率能够达到90%以上。

结语:大模型推进边缘打算变革

随着AI技能的快速发展与运用,大模型的支配已从云端演习,逐渐向边缘端推理和微调延伸,这一转变预示着边缘打算领域将迎来前所未有的机遇与寻衅。

为了让大模型平滑顺利地进入嵌入式系统,芯原已经做了深入研究和布局。
一方面,芯原的系列IP在手机、汽车等领域已经帮助客户支配了一些模型的运用,同时其AI-Computing软硬件技能也取得了新的进展,有望在AGI浪潮中引领新的打算变革。

本站所发布的文字与图片素材为非商业目的改编或整理,版权归原作者所有,如侵权或涉及违法,请联系我们删除,如需转载请保留原文地址:http://www.baanla.com/rqz/64111.html

XML地图 | 自定链接

Copyright 2005-20203 www.baidu.com 版权所有 | 琼ICP备2023011765号-4 | 统计代码

声明:本站所有内容均只可用于学习参考,信息与图片素材来源于互联网,如内容侵权与违规,请与本站联系,将在三个工作日内处理,联系邮箱:123456789@qq.com