中國工程院院士劉韻潔:確定性網(wǎng)絡是中國算力網(wǎng)建設的重要基礎(chǔ)
21世紀經(jīng)濟報道記者駱軼琪 鄭州報道
作為AI大生態(tài)的一部分,隨著大模型快速發(fā)展,“運力”的核心部分網(wǎng)絡傳輸?shù)募夹g(shù)升級訴求也日益迫切起來。
在9月28日舉行的2024中國算力大會上,中國工程院院士劉韻潔在發(fā)言時指出,確定性網(wǎng)絡是中國算力網(wǎng)建設的一個重要基礎(chǔ)。
從產(chǎn)業(yè)背景來看,今年1月,國家數(shù)據(jù)局和工信部等17部門聯(lián)合印發(fā)《“數(shù)據(jù)要素×”三年行動計劃(2024-2026)》,而數(shù)據(jù)要素是人工智能最重要的基礎(chǔ)。同月,工信部等七部門聯(lián)合印發(fā)《關(guān)于推動未來產(chǎn)業(yè)創(chuàng)新發(fā)展的實施意見》,從技術(shù)角度明確提出,加強新型網(wǎng)絡架構(gòu)研究,加快促進關(guān)于低時延、智能互聯(lián)的要求。7月,黨的二十屆三中全會在公告中首次提出,建設和運營國家數(shù)據(jù)基礎(chǔ)設施,促進數(shù)據(jù)共享。數(shù)據(jù)基礎(chǔ)設施的重要內(nèi)容就包括網(wǎng)絡、算力、傳輸交換平臺、安全。
(中國工程院院士劉韻潔,圖源:主辦方提供)
劉韻潔指出,隨著AI發(fā)展,在智能時代的數(shù)據(jù)傳遞與計算,對網(wǎng)絡提出三大新挑戰(zhàn):一是“AI大模型”對算力提出巨大需求,由此對網(wǎng)絡有新需求、新標準,需要1萬個GPU進行協(xié)同計算;二是“空間計算”的出現(xiàn),開啟前所未見的虛擬時代,雖然蘋果發(fā)布的Vision Pro價格高昂,但Meta最新發(fā)布的Quest 3S價格在300美元,這類產(chǎn)品對算力與時延同時提出要求,需要提供更高速率、更低時延;三是“具身智能”構(gòu)筑未來工業(yè)智能機器人,特斯拉人形機器人Optimus的最終目標是取代人類完成勞動,具備精準操作的能力,這對算力、時延、可靠性提出新要求。
由此,時延敏感型、計算密集型是智能互聯(lián)網(wǎng)時代新型網(wǎng)絡業(yè)務的兩個最核心特征。
劉韻潔指出,當前國內(nèi)算力產(chǎn)業(yè)面臨的現(xiàn)狀是,一方面,大模型算力需求激增,算力組網(wǎng)需求迫切,網(wǎng)絡帶寬成為瓶頸;在過去5年時間,GPU算力增長近90倍,但網(wǎng)絡帶寬僅增長10倍,模型訓練時間也隨之增長。帶寬瓶頸逐漸顯現(xiàn)。
另一方面,廣域算力資源互聯(lián)共享需要解決并行協(xié)同計算來提升算能;遠程使用算力資源,需要提升傳輸效率、節(jié)約傳輸成本。這些都需要確定性網(wǎng)絡提供支撐。
以美國微軟公司為例,Azure云游70%以上的流量都使用RDMA協(xié)議,在2023年初步實現(xiàn)80KM廣域RDMA互聯(lián);國內(nèi)華為公司也提到,在100GE環(huán)境下,8節(jié)點的VGG16模型訓練RDMA性能是TCP的8倍多。因此,構(gòu)建“無損確定性廣域傳輸能力”成為算力高效傳輸互聯(lián)的重要基礎(chǔ)。
同時,國家數(shù)據(jù)局下發(fā)的《數(shù)據(jù)基礎(chǔ)設施建設(試點試驗)任務書——數(shù)據(jù)流通方向》中提到,加快推動數(shù)聯(lián)網(wǎng)數(shù)據(jù)流通利用基礎(chǔ)設施建設,開展數(shù)聯(lián)網(wǎng)基礎(chǔ)設施建設任務。在投標方面提出,要求千公里傳輸抖動不高于50微秒,傳輸效率要大于90%、丟包率要小于十萬分之一并支持跨域網(wǎng)絡資源統(tǒng)一調(diào)度和編排。
要實現(xiàn)這些指標,沒有確定性網(wǎng)絡技術(shù)完成不了。因此確定性網(wǎng)絡是中國算力網(wǎng)建設的一個重要基礎(chǔ)。
從國際態(tài)勢看,美國正在構(gòu)建能源科學網(wǎng)絡(ESnet),這實際上是美國的“科研算力網(wǎng)絡”,其在2022年10月升級到第六代,2023年迅速發(fā)布了第七代,就是因為發(fā)現(xiàn)網(wǎng)絡環(huán)境滿足不了算力的需求。
在ESnet網(wǎng)絡的下一步技術(shù)和能力規(guī)劃中,提到的其中三個目標:端到端的確定性網(wǎng)絡能力;網(wǎng)絡可編程、可重構(gòu)、可定制;整個網(wǎng)絡資源的一體化調(diào)度——這三個能力,中國的團隊都已經(jīng)實現(xiàn)了。
劉韻潔綜合分析,“以網(wǎng)強算”成為我國提升綜合算力的新路徑。讓網(wǎng)絡與算力深度融合,構(gòu)建“全域超級計算機”,讓超算、智算、通算等各類型計算能力,通過計算機總線技術(shù)連接在一起,才能更好賦能數(shù)字經(jīng)濟發(fā)展。
這就需要確定性網(wǎng)絡體系架構(gòu)的不斷迭代開發(fā)。舉例來說,目前的互聯(lián)網(wǎng)只是普通馬路,通過確定性網(wǎng)絡要實現(xiàn)算力網(wǎng)成為高速公路,進而滿足算力需求。
劉韻潔還指出,目前中國在通用大模型方面與國際領(lǐng)先水平短期內(nèi)還有差距,但也要重視發(fā)展行業(yè)大模型。“如果在通用大模型的基礎(chǔ)上,把行業(yè)數(shù)據(jù)訓練好、行業(yè)大模型做好,完全可以走出中國自己的道路?!眲㈨崫嵵赋?。
他分析道,因為中國的行業(yè)數(shù)據(jù)最為完整和全面,但這需要政府、企業(yè)、資本等多方共同解決課題,才是真正支持實體經(jīng)濟、新質(zhì)生產(chǎn)力發(fā)展的必然渠道。