中国储能网欢迎您!
当前位置: 首页 >新闻动态>科技创新 返回

像调度电力一样调度算力,支撑大模型高速发展

作者:王峰 来源:能源评论杂志 发布时间:2025-02-28 浏览:

中国储能网讯:以大模型为代表的人工智能技术不断取得突破并获得广泛应用,其背后的算力需求呈现井喷式的增长态势。为了满足大模型训练和推理的大规模、高性能算力需求,算力基础设施的资源供给模式正在从单点资源池、单点应用向云、边、端多层次资源池及多级算力协同的方向发展。最终,算力节点将通过无所不在的网络连接有机融合,实现计算、网络、存储等多维资源的一体化柔性供给。

为了实现这一目标,算力网络的概念应运而生。依照国际电信联盟(ITU)的定义,算力网络是一种通过网络控制面分发服务节点的算力、存储、算法等资源信息,结合网络信息,以用户需求为核心,提供最佳的计算、存储、网络等资源的分发、关联、交易与调配,从而实现整网资源的最优化配置和使用的新型网络技术。它通过对全网资源的高效整合和优化分配,为计算任务提供强大的算力支持。

算力网络将成重要基础设施,

算力调度是核心能力

和电力网络一样,算力网络也将成为重要的基础设施,为经济发展和社会进步提供基础资源。一方面,把资源高效分配给需求方,提高资源利用效率;另一方面,支持用户按需获取资源,而无需关心资源的具体来源。

与电力网络相比,算力网络的建设运行更具挑战性。例如,在资源类型方面,电力网络提供的是单一的电力资源服务,算力网络则更加多元,包括通用算力、超算算力、智能算力等;在资源调度方面,电力网络相对标准化和统一化,目标是电力的供需平衡,算力网络则需考虑计算任务的类型、数据流、指令流等更多因素;在业务场景方面,电力网络被广泛应用但主要集中在能源的供应和消费,算力网络则涵盖人工智能、大数据处理、自动驾驶、智能物联网等领域,显示出更加多样化的特征。

算力网络要想像电力网络一样高效、稳定、便捷地提供资源服务,需要重点打造以下技术能力。

一是算力度量,即针对不同类型、不同架构的算力建立统一的评价体系与标识体系,赋能算力流通,类似电力网络使用“千瓦时”作为量纲,这也是为算力的感知、管控、服务打造的必要基础和标准。

二是算力感知,即在实现算力的统一度量与标识的基础上,捕捉业务算力需求信息以及算力资源信息,从而为算力网络调度编排提供依据,实现资源配置的最优化。

三是算力路由,即通过扩展传统的网络路由协议,实现对网络、计算、存储等多维度资源、服务的感知与通告,实现网络和算力资源的联合调度。

四是确定性承载,即为基础网络提供确定性能力,目标是改变传统网络的“尽力而为”转发方式,实现带宽可控、路径可控、抖动可控,为算力路由、算力通告提供“准时、准确”的高可靠连接保障。

五是算力调度,即通过编排实现算力调度与业务运营的结合,根据不同的业务场景对多样化的算力资源自动进行需求匹配和调度。

在上述技术体系中,算力调度作为连接用户业务需求和算力网络资源的中枢,是构成算力网络服务的核心能力。算力调度涉及的场景和范围非常广泛,不仅要在多云、云网之间进行协同,还要在跨行业、跨地区、跨层级的复杂场景中进行调度。算力调度主要有三类方案,分别是基于控制器对接的集中管控方案、基于路由协议扩展的算力网关方案和基于DNS域名解析的算力互联网方案。

中国电信天翼云的“息壤”平台采用基于控制器对接的集中管控方案,打造与算力控制器和网络控制器对接的一体化调度平台,通过分布式的控制器获取全局的算网信息,并根据业务需求进行全局算力调度,有效整合各方异构算力资源,为全社会提供标准化算力。当前,“息壤”正在从算力互联调度平台升级成为集算网调度、计算加速、模型训推于一体的智算服务平台,有力地支持了大模型和人工智能产业的蓬勃发展。

云边端多级算力协同,提升电力人工智能大模型推理效能

随着规模定律(Scaling Law)持续生效,大模型所需的算力规模快速增长。为消除单点集群在节点数和资源量上的限制,分布式、异构化的算力网络承载着大模型的刚性需求,算力的按需调度更是发挥了重要作用。此前业界对于大模型算力的讨论重点在于训练阶段,然而随着大模型与人们生产生活关系的日益紧密,推理阶段的算力需求同样不容忽视。大模型推理具有广泛部署、持续运行等特点,直接关系到大模型应用的准确性、实时性、扩展性和资源效率,是影响大模型用户体验和业务成效的关键。与训练阶段相比,大模型推理可使用的异构算力种类繁多,资源需求的动态性、不确定性更加突出。特别值得关注的是,采用云、边、端多级算力协同的方案可以有效提升大模型推理的效能,其核心就是合理的算力调度,即把最合适的任务调度到最合适的计算平台上去,实现架构与功能特征的匹配,并根据成本、剩余资源情况等动态更新调度方案。

大模型的云边协同推理充分运用了 智算云平台的大规模存储和处理能力,以及边缘计算的接近数据源的处理能力。在该模式中,连接智算云平台和边缘计算平台的算力网络负责把不同类别的计算任务调度到云侧或者边缘侧。在基于算力调度的云边协同推理方案中,数据首先会在端侧的传感器、移动设备等地方产生和采集,再被边缘设备接收并进行初步处理。这些处理可以包括数据清理、预处理和部分分析等。随后,数据和任务会根据性质和需求,分配给云侧或边缘侧进行进一步处理。具体来讲,那些需要快速反馈的任务,通常会被留在边缘侧;而那些需要大规模数据分析和深度处理的任务,则会被发送至云侧。基于合理的调度,云、边、端的算力能够提供更加高效、灵活的计算服务,在满足不同任务需求的同时,提高整体的计算效率。

国家电网的人工智能算力体系采用省侧云、场站边和设备端三层架构,基于算力调度的大模型云边协同推理对于电网业务的智能化升级相当重要。例如,在全景巡视、设备巡检等场景中,位于端侧的无人机、摄像头等重点负责图像、视频、点云等多种类型数据的感知和采集;位于边侧的场站边的算力资源数量、性能有限,在推理阶段可重点开展端侧上传数据的缺陷样本初步筛选,并将筛选后的缺陷样本传送至云侧;位于云侧的省侧云对缺陷样本进行深入分析,确定缺陷的类型、位置等信息。在这一过程中,云侧保证了模型具备较高的准确性和智能识别能力,而边侧的应用则确保了实时性和效率。云边协同推理方案为相关场景提供了可靠支持,可有效预防各类风险。

围绕基于算力调度的大模型云边协同推理,中国电力科学研究院联合中国电信研究院、北京航空航天大学、中国科学院网络信息中心等先进产学研合作伙伴,开展了电力人工智能大模型分布式算力调度与协同训练推理技术的攻关,重点面向电力人工智能场景多样性强、推理实时性高等特点,构建基于算力调度的云边协同推理加速器。通过研究基于实时数据流调度的云边协同预处理和推理优化策略,提高云边协同的数据处理效率和推理速度;以此为基础打造可适配算力网络环境中异构算力的轻量级运行环境,为边缘设备提供高效、灵活的计算支持,降低计算任务的部署和运行成本;同时研究基于网络压缩与切割的深度模型云边协同加速机制,为电力人工智能应用提供实时、准确的支持,降低计算任务的延迟和能耗。

当前,攻关工作在异构算力支持、模型轻量化、分布式推理加速等方面取得突破,并开展了边侧算力规模受限、异构算力设备分布式接入条件下的人工智能模型推理加速实验。实验显示,云边异构算力的协同调度既能够支持低代价、自适应的大模型轻量化,又能够保持推理精度的分布式推理,与电力需求场景实现更好的匹配。

算力作为大模型乃至人工智能发展的核心支撑力量,其重要性正随着技术的演进而越发凸显。在大模型时代,模型的参数规模和复杂性呈指数级增长,对算力的需求也从单机计算迈向了分布式、集群化甚至跨地域、全球化的算力协同。同时,算力的分布也从传统的数据中心向边缘计算和终端设备延伸,特别是为了满足推理阶段的实时性、低延迟等需求,算力需要下沉到边缘设备以实现快速响应和本地化处理。在这种情况下,将不同层级、不同位置的异构算力联系起来的算力网络作为未来人工智能发展的重要基础设施,打破了传统单点算力的局限性,通过引入智能化的算力调度策略,能够根据实时需求动态分配资源,提高资源利用率并降低能耗,这不仅提升了系统的灵活性和响应速度,还为人工智能的广泛应用提供了更广阔的空间。  

(作者系中国电信研究院大数据与人工智能研究所副所长。编辑:张琴琴)

分享到:

关键字:人工智能

中国储能网版权说明:

1、凡注明来源为“中国储能网:xxx(署名)”,除与中国储能网签署内容授权协议的网站外,未经本网授权,任何单位及个人不得转载、摘编或以其它方式使用上述作品。

2、凡本网注明“来源:xxx(非中国储能网)”的作品,均转载与其他媒体,目的在于传播更多信息,但并不代表中国储能网赞同其观点、立场或证实其描述。其他媒体如需转载,请与稿件来源方联系,如产生任何版权问题与本网无关。

3、如因作品内容、版权以及引用的图片(或配图)内容仅供参考,如有涉及版权问题,可联系我们直接删除处理。请在30日内进行。

4、有关作品版权事宜请联系:13661266197、 邮箱:ly83518@126.com