编辑:[db:作者] 时间:2024-08-25 03:08:04
不过,端到真个涌现改变了这一现状,端到端实际上是内嵌了一个小型LLM,随着喂养数据的增加,这个大模型的参数会越来越大,最初阶段的模型大小大概是100亿参数,不断迭代,终极会达到1000亿以上。
非安全类的大模型运用基本不用考虑打算问题,以是只假如个手机都敢说能跑数百亿的大模型,实际很多算力不如手机的电脑也能跑,由于延迟多几秒几十秒也没有问题,但自动驾驶必须将延迟降落到几十毫秒内。但你要以为这对算力哀求更高了,那就大错特错了,存储带宽远比算力主要千倍。当前的主流 LLM 基本都是Decoder Only的Transformer模型,其推理过程可分为两个阶段:
图片来源:论文 A Survey on Efficient Inference for Large Language Models
Prefill:根据输入Tokens(Recite, the, first, law, of, robotics) 天生第一个输出 Token(A),通过一次Forward就可以完成,在Forward中,输入Tokens间可以并行实行(类似 Bert这些Encoder模型),因此实行效率很高。
Decoding:从天生第一个Token(A)之后开始,采取自回归办法一次天生一个Token,直到天生一个分外的Stop Token(或者知足用户的某个条件,比如超过特定长度)才会结束,假设输出统共有N个Token,则Decoding阶段须要实行N-1次Forward,这N-1次Forward 只能串行实行,效率很低。其余,在天生过程中,须要关注的Token越来越多(每个Token 的天生都须要Attention之前的Token),打算量也会适当增大。
LLM推理打算过程韶光分布
图片来源:论文Memory Is All You Need: An Overview of Compute-in-Memory Architectures for Accelerating Large Language Model Inference
在车载自动驾驶运用处所,序列长度基本可等同于摄像头的像素数量和激光雷达的点云密度。
图片来源:论文Memory Is All You Need: An Overview of Compute-in-Memory Architectures for Accelerating Large Language Model Inference
在 LLM 推理中最关键的便是上图中的Multi-Head Attention(MHA),其紧张的打算集中在左图中灰色的 Linear(矩阵乘)和Scaled Dot-Product Attention中的MatMul 矩阵乘法。
图中的Mask是一个下三角矩阵,也是由于这个下三角矩阵实现了LLM Decoder的紧张特性,每个Token都只能看到当前位置及之前的Token。个中的QKV可以理解为一个干系性矩阵,4个Token对应4 个Step,个中:
Step 2依赖Step 1的结果,干系性矩阵的第1行不用重复打算。Step 3依赖Step 1和Step 2的结果,干系性矩阵的第1行和第2行不用重复打算。Step 4依赖Step 1、Step 2和Step 3的结果,干系性矩阵的第1行、第2行和第3行不用重复打算。
在Decoding阶段Token是逐个天生的,上述的打算过程中每次都会依赖之前的结果,换句话说这是串行打算,而非GPU善于的并行打算,GPU大部分时候都在等待数据搬运。加速的办法是打算当前Token时直接从KV Cache中读取而不是重新打算,对付通用LLM,运用处景是要考虑多个并发客户利用,即Batch Size远大于1,KV Cache的缓存量会随着Batch Size暴增,但在车里用户只有一个,便是自动驾驶端到端大模型,即Batch Size为1。
由于Decoding阶段Token逐个处理,利用KV Cache之后,上面先容的Multi-Head Attention 里的矩阵乘矩阵操作全部降级为矩阵乘向量即GEMV。此外,Transformer模型中的另一个关键组件FFN 中紧张也包含两个矩阵乘法操作,但 Token之间不会交叉领悟,也便是任何一个Token都可以独立打算,因此在Decoding阶段不用Cache之前的结果,但同样会涌现矩阵乘矩阵操作降级为矩阵乘向量。Prefill阶段则是GEMM,矩阵与矩阵的乘法。
矩阵乘向量操作是明显的访存bound,而以上操作是LLM推理中最紧张的部分,这也就导致LLM推理是访存bound类型。
三星对GPT大模型workload剖析
图片来源:SAMSUNG
上图是三星对GPT大模型workload剖析。在运算操作数量上,GEMV所占的比例高达86.53%;在大模型运算延迟剖析上,82.27%的延迟都来自GEMV,GEMM所占只有2.12%,非线性运算也便是神经元激活部分占的比例也远高于GEMM。
三星对GPU利用率的剖析
图片来源:SAMSUNG
上图是三星对GPU利用率的剖析,可以看出在GEMV算子时,GPU的利用率很低,一样平常不超过20%,换句话说80%的韶光GPU都是在等待存储数据的搬运。还有如矩阵反转,严格地说没有任何运算,只是存储行列对调,完备是存储器和CPU在忙活。办理办法很大略且只有一个,便是用HBM高宽带内存。
与传统LLM最大不同便是车载的Batch Size是1,导致GPU运算效率暴跌,传统LLM的Batch Size常日远大于1,这让GPU效率增加。
图片来源:论文SARATHI: Effcient LLM Inference by Piggybacking Decodes with Chunked Preflls
图上不丢脸出,Batch Size越大,推理速率反而越快,但KV Cache容量会暴增;车载的Batch Size是1,推理速率反而很慢,好处是根本不用考虑KV Cache的容量。
终极我们可以得出结论,存储带宽决定了推理打算速率的上限。假设一个大模型参数为70亿,按照车载的INT8精度,它所占的存储是7GB,如果是英伟达的RTX4090,它的显存带宽是1008GB/s,也便是每7毫秒天生一个token,这个便是RTX4090的理论速率上限。
特斯拉第一代FSD芯片的存储带宽是63.5GB/s,即每110毫秒天生一个token,帧率不到10Hz,自动驾驶领域一样平常图像帧率是30Hz;英伟达的Orin存储带宽是204.5GB/s,即每34毫秒天生一个token,勉强可以达到30Hz,把稳这只是打算的数据搬运所须要的韶光,数据打算的韶光都完备忽略了,实际速率要远低于这个数据。并且一个token也不足用,至少须要两个token,端到真个终极输出结果用措辞描述便是一段轨迹,比如直行,直行须要有个限定条件,至少有个速率的限定条件,多的可能须要5个以上token,大略打算即可得出存储带宽须要1TB/s以上。
实际情形远比这个繁芜的多。车载领域不是传统LLM利用CPU和GPU分离形式,车载领域的打算SoC都是将CPU和AI运算部分合二为一,AI运算部分常日是GPU或加速器是和CPU共享内存的。而在非车载领域,GPU或AI运算部分有独立的存储,即显存。车载领域共享内存一样平常是LPDDR,它紧张是为CPU设计的,看重速率即频率而非带宽。不像显存,一样平常是GDDR或HBM,看重带宽,不看重频率高低。上述所有理论都是基于显存的,在车载领域共享LPDDR,其性能远远低于单独配置的显存,无论是速率还是容量,共享存储都必须远比单独的显存要高才能做到大模型推理打算。
空想用英伟达Orin做了测试,纯端到端模式延迟高达1.5秒。
图片来源:论文DRIVEVLM: The Convergence of Autonomous Driving and Large Vision-Language Models
以是车载领域存储比算力主要很多,最好的办理办法是HBM,但太贵了,32GB HBM2最低本钱也得2000美元,汽车领域对价格还是比较敏感的,退而求其次,便是GDDR了。GDDR6的本钱远低于HBM,32GB GDDR6大概只要180美元或更低。
几代GDDR的性能比拟
整理:佐思汽研
基本上GDDR6的理论上限便是672GB/s,特斯拉第二代FSD芯片就支持第一代GDDR6,HW4.0上的GDDR6容量为32GB,型号为MT61M512M32KPA-14,频率1750MHz(LPDDR5最低也是3200MHz之上),是第一代GDDR6,速率较低。即利用了GDDR6,要流畅运行百亿级别的大模型,还是无法实现,不过已经是目前最好的了。
图片来源:网络
GDDR7正式标准在2024年3月公布,不过三星在2023年7月就发布了环球首款GDDR7,目前SK Hynix和美光也都有GDRR7产品推出。有些人会说,换上GDDR7显存不就行了,当然没那么随意马虎,GDDR须要分外的物理层和掌握器,芯片必须内置GDDR的物理层和掌握器才能用上GDDR,Rambus和新思科技都有干系IP出售。
图片来源:网络
在芯片领域,GDDR7增加的本钱和LPDDR5X一样的。
特斯拉的HW4.0过了一年半毫无动作,笔者认为特斯拉的第二代FSD芯片显然是后进了,特斯拉也不打算大规模用了,特斯拉的第三代FSD芯片该当正在开拓中,可能2025年底就完成开拓,至少支持GDDR6X。
大模型时期,Attention Is All You Need,同样大模型时期 Memory Is All You Need。
免责解释:本文不雅观点和数据仅供参考,和实际情形可能存在偏差。本文不构成投资建议,文中所有不雅观点、数据仅代表笔者态度,不具有任何辅导、投资和决策见地。
本站所发布的文字与图片素材为非商业目的改编或整理,版权归原作者所有,如侵权或涉及违法,请联系我们删除,如需转载请保留原文地址:http://www.baanla.com/rqz/92856.html
上一篇:专访|闻海虎谈“韩国室温超导论文”:不足以证实是超导正重复实验
下一篇:返回列表
Copyright 2005-20203 www.baidu.com 版权所有 | 琼ICP备2023011765号-4 | 统计代码
声明:本站所有内容均只可用于学习参考,信息与图片素材来源于互联网,如内容侵权与违规,请与本站联系,将在三个工作日内处理,联系邮箱:123456789@qq.com