2024.05.28 陈伟 武宁 冯思薇
引言
计算力是数字经济的核心生产力。全球新一轮AI浪潮的爆发使得以通用处理器架构为核心的通用算力(也称基础算力)难以满足人工智能的发展需求,各行业各领域对智能算力的需求日趋强烈,全国范围内掀起了智能计算中心(以下简称“智算中心”)的建设浪潮。
2023年10月,工信部等六部门发布《算力基础设施高质量发展行动计划》(工信部联通信〔2023〕180号),提出了“到2025年,算力规模超过300 EFLOPS,智能算力占比达到35%,东西部算力平衡协调发展”的发展目标。同年12月底,国家发改委等部门引发《关于深入实施“东数西算”工程加快构建全国一体化算力网的实施意见》(发改数据〔2023〕1779号),提出统筹通用算力、智能算力、超级算力一体化布局并向国家枢纽节点加速集聚。
在国家深化人工智能研发应用、适度超前建设算力基础设施的背景下,为满足人工智能产业发展的智能算力需求,2024年4月24日,北京市经济和信息化局(“北京市经信局”)和北京市通信管理局联合印发《北京市算力基础设施建设实施方案(2024—2027年)》(以下简称“《实施方案》”),引导北京数据中心产业向通用数据中心向智算中心升级。
一、北京数据中心产业再升级
《实施方案》提出“到2025年,北京市智算供给规模达到45EFLOPS,2025-2027年根据人工智能大模型发展需要和国家相关部署进一步优化算力布局”的规划目标,引导北京数据中心由原主要服务于数据存储和云计算的通用数据中心向智算中心升级。具体而言:
不再新建通用数据中心:受限于北京市整体用能指标和电量指标收紧,近几年除非政府特别批准和引入的数据中心项目,一般企业投资的新建、改扩建数据中心项目在北京很难获得批准。《实施方案》在延续北京市现行数据中心产业政策的基础上,进一步明确“本市原则上不再新增通用算力,不足部分由津冀蒙及西部地区满足”。可以预见,在北京新建服务于云计算以及传统以数据存储为主要用途的通用数据中心,将几乎不再能够获得批准。
引导存量数据中心向智算中心升级转型:对于北京市现有存量数据中心,《实施方案》鼓励引导存量数据中心在能耗总量不增加的前提下,转型升级为智算中心,或采用液冷、模块化电源、模块化机房等高效系统设计降低PUE、CUE指标,进行绿色节能改造。能效仍然是存量数据中心的运行监管重点。到2027年末,PUE值高于1.35的存量数据中心如果不能通过节能改造或转型升级有效降低PUE,作为低效数据中心将面临腾退疏解和关闭退出市场。
加快公共智算中心布局建设,不足智能算力需求向津冀蒙及西部地区采购:在智算中心建设方面,《实施方案》提出要改变智算建设“小、散”局面,在北京集中建设一批智算单一大集群,重点建设海淀、朝阳、亦庄、京西(石景山、门头沟)等E级智能算力高地,优先加快两个10EFLOPS大规模智算集群建设进度,着重满足快速增长的大模型训练算力需求和推理算力需求。
根据公开信息以及我们向北京市经信局了解的情况,目前北京已在海淀、朝阳、亦庄、京西(石景山、门头沟)规划了六个大型的政府投资的公共智算中心。但对于企业投资的、市场化的智算中心,受限于北京用能指标、电量指标十分紧张的现状,新政策出台后,北京是否也会适度放开新建智算中心的审批,还有待进一步观察。需要说明的是,根据《实施方案》,在本地发展新建智算中心并不是拓宽和满足北京智能算力需求的唯一路径。北京将统筹完善京津冀蒙算力协同发展布局, 支持北京企业在津冀蒙地区建设算力基础设施,优先采购津冀蒙及西部地区的算力基础设施和算力服务。因此,我们预期,在短期内,除北京政府主导投建的公共智算中心,社会资本投资新建智算中心的获批难度仍然不小。
二、通用数据中心 vs 智算中心
智算中心是基于最新人工智能理论,采用领先的人工智能计算架构,提供人工智能应用所需算力服务、数据服务和算法服务的公共算力新型基础设施。1相比通用数据中心普遍搭载CPU服务器芯片,智算中心主要搭载GPU、FPGA、ASIC等AI加速芯片,服务器芯片的功耗更大,单机柜功率密度更高,因此在数据中心设计和基础设施配备上,智算中心对于供电功率、电量稳定性、散热和能耗也提出了更高的要求。
通用数据中心
智算中心
基础架构
基础设施更加通用,包括多用途的存储系统、通用计算节点、标准化的网络架构,以及一般性的冷却和供电系统
包括大规模存储系统、高效的数据处理和分析设备、专门用于人工智能训练和推理的硬件加速器、高速互联网络、高密度服务器架构以及高效的能源利用和散热系统
供配电系统
高可靠性和高效率的供配电系统,规划多路市电供应、大型不间断电源系统(UPS)和备用发电机,确保在任何情况下都能提供稳定的电力
为保证高功率机柜的稳定运行,通常需要采用更高功率、高密度的供电设备,以提供更大的功率容量和更高的供电效率
智算中心对电源质量要求更高,通常需要采用特殊的电源调节设备和技术,减少电源波动和干扰
暖通系统
主要采用风冷散热技术,列间级冷热通道和微模块机柜级冷热通道均比较常见
随着芯片功率密度的增加,传统的风冷散热技术已接近极限,液冷技术(如浸没式和冷板式)或将成为未来智算中心的主流冷却设计方案
更高的节能设计要求,通过利用自然冷却、热回收技术和高效的空调设备,降低PUE值,减少对环境的影响
暖通系统趋向于采用模块化和预制化设计,提高系统的可扩展性和可维护性
网络系统
选址通常临近网络节点,由基础电信运营商保障网络运维
智算中心需要更高的带宽和更大的承载能力,以满足大规模数据传输和处理(如大模型训练)的需求
机柜
较为老旧的数据中心机柜功率在4kw-6kw之间,近年新建的数据中心机柜功率多在6kw-8kw之间
普遍采用高功率机柜,新建智算中心双服务器机柜的功率可能达到12kW乃至24kW
服务器芯片
主要搭载CPU芯片
主要搭载GPU、FPGA、ASIC等AI加速芯片
算力类型
提供通用算力(或称基础算力),以用于数据储存和虚拟化、通用(基础)计算、大数据分析等
提供智能算力,以用于人工智能的训练和推理计算,比如语音、图像和视频的处理
与建设通用数据中心类似,取得能耗指标和供电指标同样是智算中心建设的关键和难点。由于智算中心用于AI训练的服务器单机柜功率密度大幅增加,智算中心对电量的消耗相比通用数据中心更大。据悉,OpenAI在训练GPT-3时耗费了19万千瓦时的电量。因此,基于《实施方案》,存量数据中心在向智算中心改造升级时,需要特别关注其既有的能耗指标、电力供应规模是否充足。
三、智算中心建设关注要点
就智算中心建设,《实施方案》亦从绿色节能、算力自主可控、算力基础设施安全运行等方面提出建设要求及政策导向:
提升绿色低碳水平:《实施方案》要求本市新建和改扩建智算中心PUE值一般不超过1.25,年能耗超过3万吨标煤的大规模先进智算中心PUE值一般不超过1.15。新建及改扩建智算中心需提高绿色节能技术和设备覆盖率,强化光伏发电、余热回收等绿色节能措施的使用,提高算力基础设施的能效碳效水平和绿电使用比例,打造100%使用绿电的标杆示范性零碳智算中心。
坚持算力自主可控:《实施方案》提出“到2027年,实现智算基础设施软硬件产品全栈自主可控,具备100%自主可控智算中心建设能力”的发展目标,鼓励算力基础设施建设采用安全可靠软硬件产品,逐步提升新建及改扩建智算中心核心软硬件自主可控水平。对采购自主可控GPU芯片开展智能算力服务的企业,政府还将按照企业投资额的一定比例给予支持。
保障算力基础设施安全稳定运行:《实施方案》强调增强网络安全保障能力,开展通信网络安全防护工作,强化安全技术手段;提高数据安全保护能力,加强数据分类分级保护,根据监管要求对重要和核心数据实行精准严格管理;构建算力基础设施的安全综合防御体系,保障算力基础设施和重点信息系统安全稳定运行。
四、小结
智能算力规模的迅速扩大为人工智能及其相关产业的发展提供了良好的基础。智算中心作为算力基础设施的重要组成部分,是全国一体化大数据中心建设和“东数西算”工程的核心关键。此次北京新出台《实施方案》,对智算中心建设提出了新的要求,也代表了我国数据中心产业结构向智能计算升级和转型的总体发展方向,后续政策落地情况值得我们持续关注。
[1] 参见国家信息中心《智能计算中心创新发展指南》(2023年1月)。