應用

技術

物聯(lián)網(wǎng)世界 >> 物聯(lián)網(wǎng)新聞 >> 物聯(lián)網(wǎng)熱點新聞
企業(yè)注冊個人注冊登錄

我國超大規(guī)模智算集群管控達領先水平:中國移動實現(xiàn)智算萬卡池在長周期訓練場景持續(xù)穩(wěn)定運行

2025-10-15 09:09 IT之家
關鍵詞:智算集群

導讀:據(jù)人民郵電報報道,中國移動近期實現(xiàn)了智算萬卡池在長周期訓練場景下持續(xù)穩(wěn)定運行,訓練穩(wěn)定性達到行業(yè)領先水平,標志著我國在超大規(guī)模智算集群管控領域已具備領先水平。

  10 月 14 日消息,據(jù)人民郵電報報道,中國移動近期實現(xiàn)了智算萬卡池在長周期訓練場景下持續(xù)穩(wěn)定運行,訓練穩(wěn)定性達到行業(yè)領先水平,標志著我國在超大規(guī)模智算集群管控領域已具備領先水平,解決了超大規(guī)模算力集群調度、高可靠通信保障、故障智能診斷與快速自愈等業(yè)界難題。

  據(jù)介紹,人工智能技術正迎來爆發(fā)式的發(fā)展,大模型參數(shù)規(guī)模正向萬億級升級,因此智算基礎設施的算力密度、穩(wěn)定性和協(xié)同效率面臨挑戰(zhàn),萬卡級規(guī)模協(xié)同訓練場景是全球普遍面臨智算集群穩(wěn)定性問題。

  中國移動基于哈爾濱數(shù)據(jù)中心智算集群,主導研發(fā)全調度以太網(wǎng)(GSE)技術體系,打造慢卡慢網(wǎng)絡風險識別、斷點續(xù)訓、AI 運維智能體等新技術,攻克了超大規(guī)模智算基礎設施運行的關鍵技術難題。在關鍵技術突破層面,團隊重點攻關三大核心難題:

  創(chuàng)新慢卡慢網(wǎng)絡風險識別技術,實現(xiàn)典型場景故障全部感知、提升診斷準確率

  研發(fā)斷點續(xù)訓機制,實現(xiàn)故障節(jié)點自動隔離后訓練狀態(tài)的分鐘級回滾,硬件故障導致的斷訓量下降 50%

  引入 AI 運維智能體,通過多層架構日志分析系統(tǒng)實現(xiàn)分鐘級故障定界,覆蓋 25 類軟硬件故障解決方案,將故障處理時長從數(shù)天級降至分鐘級

  從人民郵電報報道獲悉,長穩(wěn)運行能力直接將大模型訓練周期縮短近三分之一,資源利用率近 100%,為 AI 技術工業(yè)化量產(chǎn)奠定基礎,可支撐自動駕駛、生物醫(yī)藥、新材料研發(fā)等前沿領域技術進步。此外,中國移動還在黑龍江、廣東打造了智算運維樣板間。

  值得一提的是,在今年 10 月 11 日的 2025 中國移動全球合作伙伴大會主論壇上,中國移動宣布升級“AI+”行動計劃,明確到 2028 年底,中國移動將持續(xù)加大對人工智能領域的投入力度,總體投入翻一番,建成國內規(guī)模最大、技術領先的智算基礎設施,探索十萬卡智算集群建設,全國產(chǎn)智能算力規(guī)模突破 100 EFLOPS。