專題:2025世界人工智能大會
新浪科技訊 7月27日午間消息,效率瓶頸2025世界人工智能大會(WAIC 2025)于7月26-28日在上海舉辦。直擊張建中打造大會期間,丨何工廠摩爾線程首次提出了“AI工廠”理念,緩解公司創(chuàng)始人兼CEO張建中在分享中表示,訓(xùn)練線程“為應(yīng)對生成式AI爆發(fā)式增長下的超級大模型訓(xùn)練效率瓶頸,摩爾線程將通過系統(tǒng)級工程創(chuàng)新,效率瓶頸構(gòu)建新一代AI訓(xùn)練基礎(chǔ)設(shè)施,直擊張建中打造為AGI時代打造生產(chǎn)先進模型的丨何工廠“超級工廠”。

據(jù)悉,緩解摩爾線程提出的訓(xùn)練線程“AI工廠”,如同芯片晶圓廠的超級制程升級,需要實現(xiàn)從底層芯片架構(gòu)創(chuàng)新、效率瓶頸到集群整體架構(gòu)的直擊張建中打造優(yōu)化,再到軟件算法調(diào)優(yōu)和資源調(diào)度系統(tǒng)的丨何工廠全面升級。這種全方位的基礎(chǔ)設(shè)施變革,將推動AI訓(xùn)練從千卡級向萬卡級乃至十萬卡級規(guī)模演進,以系統(tǒng)級工程實現(xiàn)生產(chǎn)力和創(chuàng)新效率飛躍。
具體而言,這座“AI工廠”的智能“產(chǎn)能”,由五大核心要素共同決定,其效率公式可概括為:AI工廠生產(chǎn)效率=加速計算通用性×單芯片有效算力×單節(jié)點效率×集群效率×集群穩(wěn)定性。摩爾線程將以GPU通用算力為基石,將通過先進架構(gòu)、芯片算力、單節(jié)點效率、集群效率優(yōu)化與可靠性等協(xié)同等深度技術(shù)創(chuàng)新,將全功能GPU加速計算平臺能力轉(zhuǎn)化為工程級訓(xùn)練效率與可靠性保障。
在單芯片算力方面,摩爾線程的GPU單芯片基于MUSA架構(gòu)的突破性設(shè)計,可集成AI計算加速、圖形渲染、物理仿真及超高清視頻編解碼能力,充分適配AI訓(xùn)推、具身智能、AIGC等多樣化應(yīng)用場景。且在計算精度方面支持從FP64至INT8的完整精度譜系,并通過FP8混合精度技術(shù),在主流前沿大模型訓(xùn)練中實現(xiàn)20%~30%的性能躍升。
在內(nèi)存與通信效率優(yōu)化上,摩爾線程內(nèi)存系統(tǒng)通過多精度近存規(guī)約引擎、低延遲Scale-Up、通算并行資源隔離等技術(shù),實現(xiàn)了50%的帶寬節(jié)省和60%的延遲降低。在通信和互聯(lián)領(lǐng)域,獨創(chuàng)ACE異步通信引擎減少了15%的計算資源損耗,MTLink2.0互聯(lián)技術(shù)提供了高出國內(nèi)行業(yè)平均水平60%的帶寬,為大規(guī)模集群部署奠定了堅實基礎(chǔ)。
在構(gòu)建高效集群的基礎(chǔ)上,穩(wěn)定可靠的運行環(huán)境是“AI工廠”持續(xù)產(chǎn)出的保障。特別在萬卡級AI集群中,硬件故障導(dǎo)致的訓(xùn)練中斷會嚴重浪費算力。摩爾線程創(chuàng)新推出零中斷容錯技術(shù),故障發(fā)生時僅隔離受影響節(jié)點組,其余節(jié)點繼續(xù)訓(xùn)練,備機無縫接入,全程無中斷。這一方案使KUAE集群有效訓(xùn)練時間占比超99%,大幅降低恢復(fù)開銷。(文猛)

責(zé)任編輯:王翔