X 关闭
(资料图片)
Transformer生成为访存密集型任务,显存及其带宽限制算力利用。
Transformer作为自回归模型,生成每一个新的token,都需要将所有输入过的token反复计算,实际产业中,会将已经计算过的量(K、V值)预存下来,避免重复计算,导致每生成一个token,都需要与显存进行数据交互(访存),导致相比计算,Transformer模型在生成过程中对访存的需求更高。目前全球最先进AI芯片的计算速度“远快于”显存带宽。我们认为,针对大模型推理这类访存密集型任务,对其算力需求的估计,不能单单考虑其FLOPs的需求,更重要的瓶颈在于访存。
目前的优化手段主要是在算力成本与用户体验之间做平衡。实践中有大量优化技术以克服GPU利用率低的问题,但存在一定取舍,总结而言,在不做模型精简的情况下,GPU利用率与时延难以同时兼顾。而做参数量化、模型蒸馏等模型精简看似可以做到“兼顾”,但却舍弃了模型本身的效果。我们认为,高昂的推理算力成本是阻碍以GPT为代表的LLM模型应用大规模落地的重要原因之一,后续随着算力性价比不断提升,大模型应用发展前景广阔。
支撑GPT-3.5推理任务的A100数量或至少在5万张左右。根据我们测算,若以GPT-3.5当前的流量情况以及token生成速度,大约需要5万张左右的A100才能承载推理。而如果再考虑到:1.当前全球流量最高的网站月活水平;2.更高的精度以发挥更好的模型效果;3.GPT-4若想要解开限制等因素,推理算力的需求或为长期高景气,同时当前高昂的成本是阻碍应用大规模落地的主要因素之一。
英伟达L40s开启降本第一步,应用有望加速落地。L40s在特定场景下性价比超越A100,供货周期较短。我们认为,L40s的发布首先将为英伟达及其算力产业链相关企业带来更快的实际业绩受益,而非难以交付的“高增长订单”。同时,非超大型模型端的降本有望加速应用(或尤其图像领域)大规模落地。在千亿级甚至以上参数的超大模型训练与推理方面,A/H系列仍具有不可代替的能力,L40s的发布既填补了一部分腰部客户需求,但以科技巨头需求为主的A/H系列芯片又仍将需求旺盛。
风险提示:AI技术迭代不及预期的风险,商业化落地不及预期的风险,政策支持不及预期风险,全球宏观经济风险。
X 关闭
2021年北向资金流入超4300亿元 外资热情拥抱中国资产
尽管面临疫情反复等多重不利因素,外资在2...北交所董事长徐明:北交所成立以来股票平均上涨98.9%
北京证券交易所董事长徐明8日表示,北交所...宁吉喆:2021年中国GDP将连续第二年超百万亿元
中国国家发改委副主任兼中国国家统计局...中国黄金消费市场渐回暖 “古法金”饰品获年轻消费者青睐
2022世界珠宝发展大会正在海口举行。8日在...观察:中国首条民营控股高铁开通之“时”与“势”
杭台高铁首趟列车即将发车。张煜欢摄1月8...中国生态环境保护实现“十四五”起步之年良好开局
中国生态环境部7日在北京召开2022年全国...人社部发布信用管理师国家职业技能标准
近日,人力资源和社会保障部对外发布了《...云南永善佛滩顺河梯级电站全面推进建设
日前,云南省永善县顺河村举行了佛滩顺河...中老铁路的背后 “税务专车”一路同行
2021年12月3日中老铁路正式开通运营,仅需...哈啰出行投资成立装饰工程公司 注册资本200万元
企查查APP显示,3月18日,上海钧住装饰工程有限公司成立,法定代表...Copyright © 2015-2022 热讯建筑工程网版权所有 备案号:豫ICP备20005723号-6 联系邮箱:29 59 11 57 8@qq.com