智算中心,也称为AI计算中心,是指集成了先进计算资源、网络和存储设施,支持大数据处理、人工智能(AI)训练与推理等应用的高效计算平台。它主要是通过算力的生产、聚合和释放,支撑数据的开发共享、智能生态建设和产业创新聚集等,通常用于支持企业和科研机构进行复杂计算任务。
在当前人工智能蒸蒸日上的背景下,智算中心所具备强大的算力供给能力,可为企业、高校及科研机构等提供便捷、高效的AI算力服务。随着大数据、AI和云计算的普及,各行业对智算中心的需求持续不断的增加,智算中心市场规模持续攀升。据统计,2020年全球智算中心市场规模为6200亿美元,2023年为6400亿美元。能够准确的看出,全球智算中心规模变化幅度不大。而在中国,全国智算中心的建设如火如荼,各地政府和企业的规划项目层出不穷,市场呈现出强劲的增长趋势。据统计,2023年中国智能算力规模从2020年的56.2 Eflops增长至239 Eflops。作为支撑AI发展的关键基础设施,智算中心重要性在数字化的经济时代愈发凸显。未来,智算中心有望继续扩展其在所有的领域的应用,未来行业发展空间广阔。
智算中心行业产业链上游主要为基础设施建设及软件与平台开发,其中,基础设施建设最重要的包含土建及施工承包、供配电系统、电信运营等,以及高性能服务器、存储设备和网络设备等硬件设备,数据中心建设等;智算中心行业位于中游,主要为技术上的支持与运营服务,这个环节在整个产业链中起到承上启下的作用,是实现数据处理和计算应用的关键;行业下游主要使用在于无人驾驶、机器人、元宇亩和智慧医疗等领域。
全球智算中心核心厂商包括IBM、HP、Cray等,它们占据着市场主要地位。我国国内智算中心主要厂商包括华为技术有限公司、深圳市腾讯计算机系统有限公司、曙光信息产业股份有限公司、浪潮电子信息产业股份有限公司、商汤集团有限公司、阿里云计算有限公司、北京北龙超级云计算有限责任公司(北京超级云计算中心)、联想企业科技集团、中科寒武纪科技股份有限公司等。
电源:伴随服务器(尤其是AI服务器)功耗总额的快速提升,在OCP ORV3标准限制下服务器电源一定要通过提升功率密度并维持高能源转化率(钛金96%以上)以满足服务器运转需要。更好的材料、更优的拓扑、更多的集成是功率密度提升的主要途径,因此电源行业不仅享受了总功耗提升带来的需求快速上行,同时也因为材料变更、散热需求加强等因素带来了单瓦特价格提升现象,并助力行业空间快速扩容。有必要注意一下的是,考虑到近期大陆区域外流片难度加大,伴随大陆区域流片芯片占比增加,国产AI芯片所配置的机柜或将对电源需求要求更高。
液冷:单卡功耗增加以及更多的卡集中在一个机柜,散热从风冷升级为液冷。1)英伟达GB200由两个1200W GPU与300W CPU构成,总功耗高达2.7KW,单芯片功耗的翻倍式提升使得其对散热的要求远超于传统风冷能力范畴;2)NVL 72服务器配置了36颗GB200 GPU,集成度更高,其系统功耗可达120 KW,进一步增加了散热要求;3)政策严控PUE,需要更高效的散热方案;4)全生命周期角度看,固定IT需求下液冷系统具备较强运营优势。总体看液冷相对风冷系统具备较高的建造成本,以液冷造价0.95-1.05 万元/KW(含室外冷源),风冷造价0.35 万元/KW测算,若NVL 72 单机柜功耗在120kW左右,则液冷系统造成成本为114-126万元(约16万美元),较风冷系统贵78万元。
国内自主可控:根据2023年底美国商务部和安全局(BIS)发布的一揽子规则,目前国内所能获取的AI芯片性能上限基本就在H20这一级别,考虑到H20的FP 16算力只有B200芯片的6.7%,其性能并不足以支撑国内向更大参数量模型去探索,因此国内AI芯片发展紧迫性凸显。我们大家都认为,未来国内AI芯片领军企业,将同时在出货量、生态和产品力上具有领先性。并且,考虑到国产芯片制程、工艺以及明年国内互联网客户开始推进机柜方案,建议重视国产电源、液冷等相关标的。
Agent:Agent目前慢慢的变成了全球科技巨头重点发力方向,包括PC端的Claude 3.5 Sonnet、手机端的Auto GLM以及企业业务流中的Salesforce和微软的Agent产品,同时多Agent协作的群体智能也已开始慢慢地商用化,如百度的秒哒,过去复杂、多步骤的任务均可通过Agent实现。我们大家都认为,C端和B端的Agent会有所区别,C端的个人助理更强调综合能力及生活场景的解决能力,B端的Agent更强调术业有专攻,既要有核心Agent具有总览能力,根据任务准确生成业务执行流,也要有大量的Agent具有独立的技能和专长,可处理特定的任务,并且Agent之间可以彼此沟通。随着Agent的普及,推理算力消耗将会大增,多个Agent之间通信、协作时,消耗的token、算力指数级增长。
自动驾驶:特斯拉预计于11月最后一周向非特斯拉车主发布FSD V13版本,该版本主要特征包括原生AI4输入和神经网络架构、模型大小扩大3倍、模型上下文长度扩大3倍、(训练)数据扩大4.2倍、训练计算量扩大5倍(通过Cortex训练集群实现)。同时与v12.5.4相比,v13必要干预的间隔里程增加了4倍。随着大模型在无人驾驶中普及,改变了此前规则定义下无人驾驶生硬的特点,目前体验更加类似于人类驾驶的感受,以此来降低了接管次数。但是对于L4级无人驾驶来说,特斯拉的平均接管里程数相比于人类仍有很大的差距,目前仅依靠单车智能尚无法完全实现无人驾驶,要关注国内车路云建设。
AI应用赋能千行百业:大模型应用的另外一个主战场是行业应用,《扩大内需战略规划纲要(2022-2035年)》:坚定实施扩大内需战略、培育完整内需体系。并重点提出推动5G、人工智能、大数据等技术与交通物流、能源、生态环保、水利、应急、公共服务等深层次地融合,助力相关行业治理能力提升。我们大家都认为,围绕AI在金融、工业、教育、交通、军事、医疗等领域开始落地。金融端,大模型逐步成为更好的投研助手、财富管理虚拟人、金融知识库等。工业端,大模型慢慢的开始在CAD等软件提供人机交互、AIGC生成样本等。在机器人领域,接入大模型后的机器人智能化程度快速提升,慢慢的开始在工厂等场景替代人完成简单任务。军事领域,海外的Palantir公司已经成功的在战场中利用大模型作为战场助手。教育领域,AI逐步在更多学科成为虚拟教师。在交通领域,车路云协同对基础设施提出更高要求,赋能智能交通管理的同时,能够大大降低智能驾驶车端成本。医疗领域,过往AI本身在医疗影像,新药研发等领域均有较为深入的应用(传统模型),生成式模型的出现使得上述领域的AI发展得到进一步深化,但整体看来,海外研发方向更偏制药,国内研发方向更偏健康管理,依据大模型效力的不同二者应用方向存在一定的差异。