通信行业点评:基于GPT40模型的通信基础设施需求测算近期关于GPT 模型的更新和进展不断,2022 年12 月Open AI 推出的基于GPT3.5 模型的chatgpt 应用在发布2 个月就拥有了1 亿用户,短短3 个多月后,2023 年3 月14 日Open AI 便发布了多模态GPT 4.0 大模型,相较于GPT 3.5 模型,GPT 4.0 模型支持图文回答并实现了回答度的大幅提升。3 月25 日,ChatGPT再次功能升级实现了对插件的初始支持,帮助ChatGPT 访问最新信息、运行计算或使用第三方服务。国内,百度发布了文心一言大模型,华为盘古大模型也将迎来发布,行业催化不断。应用层面的快速进展会直接带动以服务器-交换机-光模块为代表的硬件基础设施的需求提升。
国信通信观点:我们尝试从硬件基础设施角度对于当前以Chatgpt 为代表的AI 应用需求带来的硬件的弹性进行测算,并得到以下几个重要结论:(1)在AI 集群数据中心网络架构中,服务器:交换机:光模块对应比例为=1:1.2:11:4.;(2)短维度:从当下GPT 模型一次性角度测算,服务器、交换机、光模块的市场弹性分别为15%、5%、3%;(3)长维度:下游需求亿级别大规模响应角度测算,服务器、交换机、光模块的市场弹性分别为65%、19%、10%。
投资建议:以Chatgpt 为代表的AI 应用正在得到快速发展,并进行着快速迭代,进而有望赋能多行业、多样化新型应用落地,提升行业效率。软端的快速发展离不开硬件基础设备的保障,因此AI 数据中心内部的各类的硬件基础设施环节有望充分受益AI 行业进步带来的需求提升:建议重点关注国内ICT 领先企业【紫光股份】、【浪潮信息】、【锐捷网络】、【中兴通讯】、【菲菱科思】;光模块及光器件环节【中际旭创】、【天孚通信】、【新易盛】;IDC 温控企业【英维克】、【申菱环境】;IDC 电源端企业:【科华数据】、【科士达】;第三方IDC【奥飞数据】;建议关注:【同飞股份】、【佳力图】。
基于英伟达AI 网络架构硬件需求比例:服务器:交换机:光模块=1:1.2:11.4由于当前大部分AIGC 模型都是基于英伟达方案来部署,我们从英伟达的AI 集群模型架构进行拆解。
对于较大的AI 数据中心集群,一般可多达几千台AI 服务器的需求,在部署方面会拆分成一个个基本单元进行组件,英伟达对应的一个基本单元为SuperPOD。
根据SuperPOD 公开信息:一个标准的SuperPOD 由140 台DGX A100 GPU 服务器、HDR InfiniBand 200G网卡和170 台NVIDIA Quantum QM8790 交换机构建而成,其中交换机速率为200G,每个端口数为40 个。
网络结构上,英伟达采用Infinband 技术(“无限带宽”技术,简称IB)和fat tree(胖树)网络拓扑结构,和传统的数据中心的区别在于,在IB fat tree 结构下,使用的交换机数量更多,且因为每个节点上行下行的端口数完全一致,使得该网络是是无收敛带宽的,每个端口可采用同样速率的光模块。
光模块用量测算:我们从线缆角度测算光模块需求,一个SuperPOD 170 个交换机,每个交换机有40 个端口,最简单方式上下个70 台服务器,依次端口互联(上下1:1 连接)对应的线根,但是由于实际网络拓扑结构交换价不是该情况,连接情况更加复杂且会分为三层结构,因此线缆数需求有所提升,我们假设上升至4000 根线缆需求。
线缆的需求分为三种,第一种用在机柜内部,互联距离5m 以内,常用需求为铜缆,不需要光模块;第二类互联距离为10m 以内,可以采用AOC(有源光纤)连接,也不需要光模块;第三类,带光模块的光纤,单根需求为2 个光模块。
考虑到10m 以内的连接占据多数,我们假设铜缆:AOC:光模块光纤比例=4:4:2.
对于一个SuperPod,服务器:交换机:光模块的用量比例=140:170:1600=1:1.2:11.4.
应用层面:单GPT4.0 模型对于服务器需求用量测算从用户使用角度来测算,我们对于服务器算力的测算受大模型参数,日活人数,每日每人提问等多因素影响。
在ChatGPT 中,一个token 通常指的是响应请求所需的最小文本单位,一般一个30 词的提问大约对应40个token,推理是token 的算力调用是2N。对应模型算力的需求我们分摊在一天24h 的每一秒。
角度1 我们选择从现有完成一个类似GPT4.0 入门级别要求的需求假设去测算硬件基础设施层面需求。
假设1:结合现有各类公开数据,完成ChatGPT4.0(训练+推理)需要至少3 万张英伟达A100 卡的算力投入,对应3750 台A100 的DGX 服务器。
假设2:全球假设国内和海外有潜在20 家公司可能按照此规模进行测投入。
假设3:网络结构比例按照单个SuperPOD 方式部署,即服务器:交换机:光模块的用量比例=1:1.2:11.4。
假设4:服务器价格参考英伟达价格,为20 万美元;交换价结合Mellanox 售价,假设单价为2w 美金,光模块根据交换机速率,现在主流为200G,假设售价为250 美金。
角度2:基于下游应用呈现规模角度,即按照单GPT4.0 模型对于服务器需求用量测算。
假设2:全球假设国内和海外有潜在20 家公司可能形成同样类型规模应用。
假设3:网络结构比例按照单个SuperPOD 方式部署,即服务器:交换机:光模块的用量比例=1:1.2:11.4。
假设4:服务器价格参考英伟达价格,为20 万美元;交换价结合Mellanox 售价,假设为2.5-3w 美金,光模块根据交换机速率,现在主流为200G,假设售价为250 美金。
以Chatgpt 为代表的AI 应用正在得到快速发展,并进行着快速迭代,进而有望赋能多行业、多样化新型应用落地,提升行业效率。软端的快速发展离不开硬件基础设备的保障,因此AI 数据中心内部的各类的硬件基础设施环节有望充分受益AI 行业进步带来的需求提升:建议重点关注国内ICT 领先企业【紫光股份】、【浪潮信息】、【锐捷网络】、【中兴通讯】、【菲菱科思】;光模块及光器件环节【中际旭创】、【天孚通信】、【新易盛】;IDC 温控企业【英维克】、【申菱环境】;IDC 电源端企业:【科华数据】、【科士达】;第三方IDC【奥飞数据】;建议关注:【同飞股份】、【佳力图】。
Chatgpt 为代表的应用落地不及预期,参数假设存在偏差,实际行业需求和投入力度不及预期。