AI大潮下,数据存储如何从算力“附庸”跃升为“并跑者”
2025-10-31 18:02:40
  • 0
  • 0
  • 0

【全球存储观察 | 科技热点关注】

近年来,在国家“东数西算”的宏大棋盘上,内蒙古正凭借其独特的区位、能源、气候与政策优势,崛起为“东数西算”的重要枢纽节点,正在全力打造全国的绿色算力保障基地和供给基地。

在这里,中国移动建成了全球运营商最大单体液冷智算中心,成千上万的GPU算力日夜不息,为远在京津冀的AI大模型应用与创新,源源不断提供着澎湃动能。

于此,中国移动呼和浩特数据中心总经理王科峰表示,中国移动正在积极践行“建设服务数智内蒙古,服务全国一盘棋”的使命,聚焦绿色、安全、高效、协同的数据中心建设任务,持续构建面向未来的AI算力基础设施,实施中国移动从过去传统运营商“+AI”范式向现在“AI+”新范式的战略转变。

同时,王科峰也指出:就算再快的算力,若没有与之匹配的存储系统,也难以发挥其全部效力。 

一场关于存储角色的转型,正在算力基础设施的核心地带悄然发生。


算力范式加速变革,

存储遭遇“四大压力”挑战


AI大模型的爆发,彻底重塑了算力基础设施。通过与众多行业企业的长期交流与合作,曙光存储运营总监石静对此有着深刻的认识,她认为计算架构已从CPU为主,转向以GPU和AI加速卡为核心的的智算时代,存储系统需要应对的挑战发生了根本性改变,四大压力不可忽视。

其一,规模之压,极限挑战。面对计算规模剧增的全新变化,千卡、万卡集群意味着成千上万个计算节点同时发起数据请求,对存储的并发访问能力提出前所未有的极限挑战。

其二,数据之变,极高调度。面对数据海量与价值重生的新变化,AI训练数据集规模动辄数百TB乃至PB级,且大模型让曾经的“冷数据”开启价值重生,变为“温数据”甚至“热数据”。数据需在训练、推理、归档间智能流动,对跨协议、跨介质、跨设备的数据调度能力要求极高。

其三,性能之跃,极致体验。面对性能要求出现指数级跃升的新变化,AI大模型时代的存储性能,比传统高性能计算有数倍提升。如在训练阶段,需超高带宽喂饱GPU,避免高价GPU“空转”等待数据。而在推理阶段,则需千万级IOPS与毫秒级极低延时,以满足高并发用户场景实际需求,从而保障用户体验。

其四,TCO之效,极省成本。面对TCO与效率平衡的新变化,需通过高密度、节能技术,在提供全闪高性能与混闪高性价比存储资源的同时,有效控制总体建设与运营成本。

面对这四大压力挑战,存储系统若不能进化,就将成为制约AI算力整体性能的短板。“任何高端芯片,没有高效的存储系统来支撑,再快的算力可能也发挥不出来效力。” 中国移动呼和浩特数据中心总经理王科峰如是说道,强大算力的背后,离不开先进存力作为AI基础设施的底座,并实现协同加持。


国家关键枢纽的最佳实践,

绿色智算再发现与存储价值重塑


毋庸置疑,当前的中国算力基础设施规模还在持续扩大。截至2025年6月,在用算力中心智算规模达788EFlops,算力中心平均PUE降至1.42。但算力发展仍面临能耗与效率的权衡问题。

2025年10月23日,中国移动携手曙光存储举办“随数而动,智存智用”活动,在“东数西算”北方枢纽的中国移动呼和浩特数据中心,通过实地探访,我看到了应对这一系列挑战的国家级方案。

这里规划着11万架机柜,目前已建成近3万架,承载着近2万P的算力,智能算力15600P,其中90%以上服务京津冀地区。更令人瞩目的是其绿色指标:2025年园区PUE整体降至1.22,智算中心PUE更是低至1.15。据中国移动技术专家赵一帆透露,通过“绿色能源+高效制冷+智能调度”三重路径,实现算力增长与碳排脱钩。2025年100%绿电目标达成后,呼和浩特数据中心将成为全国首个全绿电智算枢纽,为“东数西算”提供低碳范本。

作为东数西算战略的关键枢纽,中国移动呼和浩特数据中心不仅是中国移动“4+N+31+X”算力网络中规模最大、技术最先进、保障最完备的中心节点,也是推动绿色低碳与智能计算融合发展的标志性工程。

但值得一提的是,规模的宏大与绿色的领先,并非故事的全部。

“我们去年建成了全球运营商单体最大的智算中心,国产化芯片占比达89%。”据王科峰介绍,在中国移动九天大模型和中石油昆仑大模型等训练支撑中,让大家深刻认识到,高效的存储系统才是释放算力潜力的关键。

这一认知来自最佳实践的真知。“现在计算和训练已不是决定最终效果的唯一天花板。”王科峰认为,有必要在存储和计算的协同上进行深耕研究。

而今,中国已迈入AI驱动的智算时代,数据存储系统的重要性愈发凸显。AI时代存储认知:抓住变化,才能抓住发展的关键。从传统存储到蓝光归档,再到如今的高性能先进存力,中国移动在数据存储与管理的演进中,完成了对存储价值的战略再定位。

从中,我们也不难发现,通过存算协同,进一步实现存储价值重塑,这与智算中心绿色低碳发展趋势也不谋而合。诚然,在中国移动呼和浩特智算中心的实践中,曙光存储技术不仅解决了“四大压力”问题,更与中心的绿色发展理念深度契合。

借助曙光智能分层、加密去重等技术,存储系统自身能耗显著降低,与中国移动PUE绿色目标同频共振。这种软硬结合的优化,共同打造了规模与绿色智算协同发展的创新范式。

更重要的是,这套中国移动呼和浩特智算中心采用的存算协同方案,已转化为实实在在的生产力,并成功支撑中国移动九天大模型、中石油昆仑大模型的训练,还赋能了在政务、医疗、矿山等多个领域的150多项AI应用和40多项行业大模型落地。

与此同时,在存储生态建设方面,中国移动呼和浩特智算中心与伙伴共同推动技术创新,打造了多个行业标杆案例,为产业发展提供了可借鉴的经验。


数据存储的进化与跃升,

从附庸到并跑的技术破局


从中国移动呼和浩特数据中心战略定位,看AI存储的时代价值,曙光存储运营总监石静分析认为,AI时代的存储明显面临重大角色转型。

面对智算中心的迫切需求,作为中国先进存力的引领者之一,曙光给出了答案:存储不应再是计算的附庸者或陪同者,而必须成为并跑者。

这一地位的转变,依托于曙光20多年自主存储技术研发与行业实践积淀的硬实力。从2009年国内首个单一容量16PB存储系统,到2019年首个单一系统超100PB存储系统,再到如今落地十几个百PB级项目,服务多个国家级计算中心、智算中心、分布式计算节点,曙光存储技术历经了国家级工程的严苛检验。

在中国移动呼和浩特智算中心,曙光部署了总量逾60PB的存储资源,包括全闪、混闪产品。而其核心,就是“3+5高效协同” 的技术体系,即在数据I/O路径的三个层级上,融入五项加速技术,通过加速技术把本地不同层级的物理资源充分利用起来,把网络优化到极致,实现存储与计算的深度协同。

一方面,创新超级隧道技术,攻克时延瓶颈。

在存储节点内部,曙光通过“超级隧道”技术,对CPU、内存、网卡和SSD进行硬件资源虚拟化与池化。将一个物理存储节点划分为数十甚至上百个独立的虚拟系统,为每个数据I/O提供独享的专用通道。这种资源隔离机制从根本上消除了干扰,将I/O时延降至最低,实现存储系统的极致高性能。

二方面,聚焦近计算亲应用,让数据主动靠近GPU。

为解决数据搬运瓶颈,曙光构建了多层次缓存池如内存池、本地SSD池,推行“近计算”理念。通过智能调度数据流向,使数据能在内存处理就不下放到SSD,能在本地计算就不跨网络访问远端存储。这样就可以将数据尽可能地保留在离GPU计算单元最近的地方,据测算可有效将I/O性能提升10-20倍,极大缓解了训练和推理过程中GPU的“数据饥饿”问题。

三方面,强化智能运营与高可靠,保障大规模集群稳健运行。

现实中,运营中大型的算力中心,计费是首要的事情,得保证每个付费了的用户能享受到对应的服务等级,因此在这里首先得提一下智能QoS。在多租户的算力中心,曙光存储通过文件系统与客户端的精细QoS控制,确保为不同客户提供的性能严格隔离、互不干扰,实现了服务等级协议的可量化、可售卖,为运营方创造增值。

与此同时,在面对数百、数千节点的大规模集群时,曙光存储依托数十个百PB级项目的落地经验,通过分而治之的策略,在集群快速拓扑、网络通信稳定交付和分布式高并发处理上进行优化,将故障影响局部化,保障系统整体平稳。

不过,知己知彼,百战不殆。通过智能分析工具预先洞察业务I/O模型,主动为计算平台提供调优建议,引导其以最佳方式与存储交互。从而,能够为整体的AI训练和业务调优做相关的指导。只有充分知道业务需要什么,存储才能从并跑者变成计算的知己,共同将业务性能发挥到极致,从而真正实现存算深度协同。


小结:

算力与存力协同发展,

共拓智算时代的未来蓝海


从内蒙古呼和浩特到全国,从“东数西算”到千行百业,AI的浪潮扑面而来,正以前所未有的力量重塑着一切。

AI大时代的发展势不可挡,中国移动与曙光存储在呼和浩特智算中心的实践揭示了一个朴素而深刻的道理:真正的智能算力,从来都不只是芯片的峰值性能,而是计算、存储、网络深度融合的系统能力,以及高效的服务能力输出。

当存储完成了从幕后到台前、从附庸到并跑的历史性跃升,算力与存力协同发展的理念正式成为了打造全球运营商最大单体液冷智算中心的关键,于是,我们就更有了足够的底气,让先进存力成为释放算力潜能的关键引擎,携手共拓智算时代的未来蓝海。


- END-

你怎么看?

欢迎文末评论补充!

【全球存储观察|全球云观察|科技明说|阿明观察】专注科技公司分析,用数据说话,带你看懂科技。本文和作者回复仅代表个人观点,不构成任何投资建议。

 
最新文章
相关阅读