中国储能网讯:曾经,面对“什么东西看不见摸不着,却时刻影响人们生活”的问题,许多人会脱口而出“空气”。如今,“算力”也成为不少人心中的答案。数字时代,算力已然像水、电、燃气一样便捷可用。曾经,面对“什么东西看不见摸不着,却时刻影响人们生活”的问题,许多人会脱口而出“空气”。如今,“算力”也成为不少人心中的答案。数字时代,算力已然像水、电、燃气一样便捷可用。
织就数字时代的算力网
5月,工业和信息化部等六部门联合发布的《算力基础设施高质量发展行动计划》(以下简称《行动计划》)提出,要“探索构建布局合理、泛在连接、灵活高效的算力互联网”。近日,我国正式启动“算力互联网试验网”建设,拉开了构建数字经济时代新型信息基础设施的序幕。
算力互联网,顾名思义是给算力搭建一个网络空间,就像Internet(互联网)连通全球的网友和设备一样,现在我们要把全国的算力都串联起来。
“算力互联网并不是一张新的网络,而是在现有互联网基础上,将分散在各地的算力资源连接在网上,通过标准化的算力标识和协议接口,跨域资源互联网络,实现全网异构算力的智能感知、实时发现、随需获取。”中国信息通信研究院院长余晓晖说道,和以往的网络互联互通不同,算力互联互通更加侧重供需之间的互联,其目的是实现人工智能、科学计算、工业计算等计算任务在本地算力资源不足或随时随地随需使用算力时,计算任务及其数据可以流动到另一个算力池进行计算,实现算力资源智能感知、实时发现和随需获取,使算力像水、电一样便捷使用。
就像电力让灯泡发光,算力也是AI的“燃料”。算力产业已被纳入国家重要发展战略。从2024年“加快形成全国一体化算力体系”到2025年“优化算力资源布局”,政府工作报告连续两年强调算力产业高质量发展的重要性。
算力基础设施高质量发展需要各级政府以及基础电信运营商、第三方数据中心服务商、互联网企业等各类市场主体在算力基础设施建设运营中发挥各自优势,互促互补、形成合力。如今,包括电信运营商、云服务巨头、智算中心、科研机构在内的多方力量已纷纷入局,共同织就这张未来的“算力之网”。
从“资源孤岛”到“一云多芯 ” 算力互联网破局而生
如果说数据是数字经济的“石油”,那么算力就是驱动这一切运转的“引擎”。算力是集信息计算力、网络运载力、数据存储力于一体的新型生产力,主要通过算力基础设施向社会提供服务。从AIGC(人工智能生成内容)的惊艳问世,到自动驾驶汽车的决策,再到新药研发周期的大幅缩短,都离不开海量算力的支撑。算力,已不再是少数科研机构的专属工具,而是驱动社会创新和产业升级的核心生产力。
如最近爆火的电视剧《长安的荔枝》所描述的那样,岭南盛产荔枝(算力),远在长安的杨贵妃想吃荔枝,就命令人在鲜荔枝腐坏前将其从岭南转运至长安。算力也得在数据“超时”前完成调度与计算。
“我国数据中心和算力资源总体上呈现‘东部需求旺盛,西部资源富集’的格局,需要通过构建新型算力网络体系,将东部算力需求有序引导到西部,优化数据中心建设布局。”中国工程院院士刘韵洁在多个场合强调,构建全国一体化的算力网络体系是应对当前挑战的必然选择。
长期以来,各地的计算中心、数据中心如同一个个“资源孤岛”,技术体系各异,标准难以统一,导致算力无法在更广阔的范围内高效流通和共享。
在谈及行业痛点时,联通数科云计算事业部云管平台部总经理温源也表达了类似的看法:“当前行业面临的主要阻碍,是算力资源碎片化、供需错配问题突出,导致资源利用率不高。算力互联网正是为了解决这些核心问题而生。”他具体阐述道,“首先是整合异构资源,通过统一的调度平台和标准接口,纳管通算、智算、超算,打破‘算力孤岛’;其次是实现智能匹配供需,平台可以按任务需求动态匹配最优资源,例如在‘中训边推’(中部训练、边缘推理)场景中,联通打造的‘星罗’调度平台能够实现任务与资源毫秒级匹配;最终实现降本增效,降低用户获取算力的门槛和成本,提升资源周转率。”
与此同时,以大模型为代表的AI技术浪潮,为算力互联网的发展按下了“快进键”。据OpenAI分析,自2012年以来,全球头部AI模型训练算力需求每3至4个月便翻一番,增长曲线极为陡峭。这种对巨量智能算力的“饥渴”,让算力互联网的价值越发凸显。
温源认为,算力互联网正是满足AI时代算力需求的理想架构。他指出,大模型对算力互联网提出了新要求和新挑战,“例如,千亿级模型训练需要TB级的带宽和毫秒级的时延互联,同时需要支持像‘西训东推’‘中训边推’等复杂的调度场景。”而算力互联网恰好能发挥独特优势,“以联通的实践为例,我们依托400GROADM的全光底座,可以实现枢纽间毫秒级的时延直连;通过‘星罗’平台的智能调度,能够动态分配训练和推理任务,使资源利用率达到75%以上;再结合‘东数西算’的布局,将训练任务调度至呼和浩特等西部低碳枢纽,可将PUE(电源使用效率)降低至1.2以下。”
除了中国联通,各大厂商也正从不同路径探索解决方案,共同推动算力互联网从理念走向现实。
阿里云很早就开始了对大规模、分布式计算的探索。其自研的“飞天”(Apsara)云操作系统,本质上就是一套为统一管理和调度百万级服务器而设计的“超级计算机”操作系统。在算力互联网时代,阿里云正将其“公共云”的能力延伸,构建一个开放的算力调度体系。
面对来自英伟达、AMD以及国产芯片厂商,如海光、寒武纪等的异构算力,阿里云通过CIPU这一专用处理器,将网络、存储、安全等基础设施能力从CPU中卸载,并对上层提供标准化的接口。这使得无论底层芯片如何变化,上层应用都能获得一致、高性能的算力服务。
腾讯云则将重点放在了打造极致性能的“运载力”上。其推出的新一代算力网络“星脉网络”,是专门为AI和高性能计算场景设计的。
该网络通过自研的网络设备和拥塞控制算法,实现了3.2TB的超高端口带宽和跨区域低至毫秒级的通信延迟。
华为云的算力互联网战略,深深植根于其“云边端协同”的理念。其目标是构建一张无处不在的、架构统一的算力网络,覆盖中心云、边缘节点乃至终端设备。这一战略的核心是其“昇腾”(Ascend)AI计算架构和分布式云基础设施“擎天”(QingTian)架构。
通过“擎天”架构,华为云能够将部署在全国各地的昇腾AI算力中心(如武汉、西安、深圳的人工智能计算中心)进行逻辑上的统一资源化,形成一个巨大的分布式算力池。
用户无需关心物理位置,即可通过华为云的统一入口,调用最优的算力资源。这种模式尤其适用于自动驾驶、工业质检等需要低延迟边缘计算和高强度中心训练协同的场景。模型在中心的昇腾集群上完成训练,然后一键推送到遍布全国的边缘节点进行实时推理。
除了商业公司,以鹏城实验室为代表的国家级科研机构也在算力互联网的建设中扮演着关键角色。其研发的“鹏城云脑”系列,特别是“鹏城云脑Ⅱ”,是全球首个E级(每秒百亿亿次)AI计算平台,也是我国在算力网络领域的重大战略部署。
“鹏城云脑”不仅自身算力强大,更重要的使命是作为中国算力网的核心节点,探索如何将全国各大超算中心、智算中心进行高速互联和协同调度。
从标准到算法 疏通算力输送“大动脉”
想要富,先修路。而在算力产业中,网络也是算力的路。
以中国联通为代表的电信运营商,凭借得天独厚的网络优势和广泛的算力节点布局,在算力互联网中扮演着不可或缺的角色。“作为运营商,我们的核心优势在于‘云网融合’。网络是算力的‘输送带’,只有把‘路’修好,算力才能跑得快、跑得稳。”温源强调。他详细介绍了中国联通基于“四位一体”架构的核心优势:
“第一是全光底座,我们的400GROADM网络已覆盖22个省,实现了算力枢纽间低于24ms的直连时延;第二是智能化产业互联网,通过SRv6+SDN技术实现业务级的SLA(服务水平协议)保障;第三是‘星罗’调度平台,它能够纳管多元异构算力,使整体调度效率提升40%;第四是双引擎基座,以裸金属+容器化的双栈架构支撑通用计算和智能计算的混合部署。”
“星罗”先进算力调度平台,是联通这套体系的“智慧大脑”。当被问及平台的实际运作时,温源以“中训边推”场景为例介绍道:“首先平台会进行任务拆分,比如将模型训练任务调度到西部的超算中心(如呼和浩特),同时将推理任务下沉至更靠近用户的边缘节点;然后是资源匹配,通过算力标识解析来定位最优资源,并结合网络状态动态选择最佳路径;最后是数据加速,基于高通量数据传输技术,显著提升跨域传输的效率。”
实现“算力如水,随取随用”的美好愿景,道阻且长。异构算力纳管、海量数据安全高效流通、调度算法的公平与效率、绿色低碳等,都是摆在全行业面前的技术难题。
“这些挑战是系统性的,需要产业链上下游共同努力,从标准、技术、架构等多个维度进行创新突破。”温源表示。
在解决海量数据传输的问题上,构建一张泛在、弹性、高性能的网络底座是关键。温源介绍道:“在海量数据传输方面,我们开展了‘数据快递’新业务,利用中国联通高通量的网络(400G骨干网+SRv6)来打造实现海量数据传输的解决方案,实现了传输效率的有效提升。”
任务调度是算力互联网的核心,也是难点所在。面对这一挑战,产业界正在积极探索。温源介绍了联通为实现“算力水电化”愿景所探索的实践路径:“首先是架构创新,我们正在构建‘算力调度+光网络’联动的算网大脑;其次是算法突破,通过研发智能调度算法,能够减少30%的冗余数据迁移;最后是网络升级,我们已开展试点800G超高速传输技术,向实现全光网2.0迈进。”
发展算力互联网 还需越过几道坎
技术最终的价值应该体现在应用之中。算力互联网正催生出一系列新业态、新应用,为千行百业和个人用户带来前所未有的体验。
在消费端,云手机、云电脑、AI作画等应用,都需要强大的云端算力实时渲染和计算。算力互联网的普及,将让这些高性能服务变得更加流畅和亲民。
然而,发展算力互联网,仍然面临较大的挑战。我国算力互联网尚处于发展初期,当前算力调度更多仅限于算力卡资源的简单分配。要真正实现不同架构、不同主体、不同地域的多元算力互联互通,实现算力资源的动态调配和自动优化,主要面临四方面挑战:
一是技术体系有待完善,二是数据流通仍存堵点,三是商业模式不成熟,四是发展机制有待健全。
“当前,我国各类算力提供主体超5000家且多元化,其技术体系、基础架构、调用接口、资源描述等存在差异,建成的算力没有形成全国范围内可感知和可调度的标准化算力服务,用户因此也难以快速找到位置、成本、性能均合适的算力资源,供需无法高效对接。”余晓晖直言,如何在多元化算力供给的状况下统合形成标准化可调度的算力服务,是当务之急。产业界在积极开展算力互联路径探索,但由于缺乏统一算力资源感知、任务数据流动、应用架构适配等关键互联规则和标准,总体还是“算力局域网”分别发展的局面,未能形成全国全域的统一算力服务大市场。
《行动计划》明确了“两步走”目标,并制定了6方面16项重点任务,包括筑牢算力互联基础、优化算力设施互联、促进算力资源互用、创新算力业务互通、打造算力互联应用场景、夯实算力网络和数据安全保障。
“从长远来看,推动算力互联网像水、电、网一样即插即用、按需付费,是我们这一代信息通信人的使命。”温源这样总结道。当算力真正像水电一样触手可及,我们将迎来一个算力驱动创新的新时代。