大模型時(shí)代 云生態(tài)躍遷
大模型熱潮已持續(xù)近兩年。
當(dāng)度過最初的興奮、回歸現(xiàn)實(shí)之時(shí),許多從業(yè)者、開發(fā)者感到失落與迷茫,甚至對(duì)未來前景開始有所懷疑。
“因?yàn)槿藗兛偸歉吖兰夹g(shù)的短期價(jià)值,卻低估技術(shù)的長期價(jià)值?!痹?月25日舉辦的2024百度云智大會(huì)上,百度創(chuàng)始人李彥宏指出。在他看來,大模型是一次顛覆式的技術(shù)革命,長期前景非常樂觀。
不過坦言之,大模型落地仍存在諸多挑戰(zhàn)。在底層基礎(chǔ)設(shè)施方面,科技大佬們“英雄所見略同”,從此前的萬卡集群到近期討論日盛的“十萬卡集群”,“堆算力”成為共同選擇。應(yīng)用落地方面,今年以來大模型廠商掀起“價(jià)格戰(zhàn)”,但單純比拼降價(jià)幅度難言“觸及靈魂”,開發(fā)者還有更多的應(yīng)用開發(fā)需求。
如今,“十萬卡時(shí)代”的臨近,疊加大模型應(yīng)用的序幕,云廠商能夠扮演怎樣的角色?
圖片來源:IC photo
十萬卡時(shí)代降臨
單點(diǎn)萬卡集群,讓生成式AI成為絕對(duì)頭部玩家“權(quán)力游戲”的同時(shí),也讓大模型廠商承受著算力利用率低下、“停下即燒錢”的“難言之痛”。
但現(xiàn)在,萬卡集群“病灶未除”,“十萬卡時(shí)代”卻開始逼近。
9月初,特斯拉CEO埃隆·馬斯克突然宣布,旗下人工智能初創(chuàng)企業(yè)x.AI打造的超級(jí)人工智能訓(xùn)練集群Colossus(巨人)正式上線。該算力集群擁有10萬張英偉達(dá)H100 GPU,并將在未來幾個(gè)月內(nèi)繼續(xù)增加10萬顆GPU。
國內(nèi)科技巨頭亦聞風(fēng)而動(dòng)。
在日前結(jié)束的云棲大會(huì)上,阿里巴巴集團(tuán)CEO、阿里云智能集團(tuán)董事長兼CEO吳泳銘指出,阿里的單網(wǎng)絡(luò)集群已擴(kuò)展至十萬卡級(jí)別。
“很快就會(huì)有更多的十萬卡集群出現(xiàn)。”9月25日,在2024百度云智大會(huì)上,百度集團(tuán)執(zhí)行副總裁、百度智能云事業(yè)群總裁沈抖判斷稱。
事實(shí)上,在大模型領(lǐng)域,擁有著名的第一性原理,即尺度定律(Scaling Law)。簡(jiǎn)單理解就是,隨著模型大小、數(shù)據(jù)集大小和用于訓(xùn)練的計(jì)算浮點(diǎn)數(shù)的增加,模型的性能會(huì)相應(yīng)提升,并且要想獲得最佳性能,這三個(gè)因素需要同時(shí)放大。
這個(gè)定律仍在延續(xù)。據(jù)估算,自2012年以來,AI模型訓(xùn)練算力需求每3至4個(gè)月就翻一番,每年訓(xùn)練AI模型所需算力增長幅度高達(dá)10倍。因此也就不難理解,當(dāng)前各大科技巨頭進(jìn)軍“十萬卡集群”的緣由。
然而,從萬卡到十萬卡并非簡(jiǎn)單的算力堆疊,兩者之間的管理存在本質(zhì)區(qū)別。
“要部署十萬卡的大規(guī)模集群,光是在物理層面就要占據(jù)大約10萬平方米的空間,相當(dāng)于14個(gè)標(biāo)準(zhǔn)足球場(chǎng)的面積。”沈抖透露,“在能耗方面,這些服務(wù)器一天就要消耗約300萬千瓦時(shí)的電力,相當(dāng)于北京市東城區(qū)居民一天的用電量?!?/p>
如此種種,對(duì)空間與能源提出了巨大需求,遠(yuǎn)遠(yuǎn)超過了傳統(tǒng)機(jī)房部署方式所能夠承受的范疇,跨地域機(jī)房部署成為不得已而為之的選擇,但這又帶來網(wǎng)絡(luò)層面的巨大挑戰(zhàn)。
與此同時(shí),還有運(yùn)維方面的難點(diǎn)。事實(shí)上,即便是當(dāng)前的萬卡集群中,運(yùn)維的復(fù)雜性已急劇增加。根據(jù)Meta披露的研究數(shù)據(jù)顯示,使用了1.6萬張GPU的Llama 3.1訓(xùn)練持續(xù)54天,在此期間集群遭遇419次意外組件故障,平均每3小時(shí)發(fā)生一次。
而集群規(guī)模提升至十萬卡,發(fā)生故障的概率無疑會(huì)更高。“大模型訓(xùn)練是一個(gè)龐大的單一任務(wù),需要齊步走。一個(gè)節(jié)點(diǎn)出錯(cuò),整個(gè)集群就得停下、回滾到上一個(gè)記憶點(diǎn)?!鄙蚨督忉尫Q,“每停一分鐘,都是白白燒錢?!?/p>
在接受包括21世紀(jì)經(jīng)濟(jì)報(bào)道在內(nèi)的媒體采訪時(shí),百度杰出系統(tǒng)架構(gòu)師、百度智能云AI計(jì)算部負(fù)責(zé)人王雁鵬指出,2024年很多企業(yè)加大了在大模型領(lǐng)域的投入,但大家在大模型訓(xùn)練時(shí)遇到了一個(gè)共性問題,那就是算力利用率很低?!澳壳捌髽I(yè)訓(xùn)練大模型的算力有效利用率不足50%,這意味著,一半以上的算力被浪費(fèi)了。”
這也為“十萬卡時(shí)代”的算力建設(shè)提供了另一種思路。除了大干快上“圈地”算力池之外,提升算力的有效利用率成為首選項(xiàng)。
百度所升級(jí)的百舸4.0平臺(tái),正是面向萬卡、十萬卡集群全面提升算力管理能力。不僅在集群創(chuàng)建階段可將萬卡集群運(yùn)行準(zhǔn)備時(shí)間從幾周縮短至1小時(shí),還能夠在模型訓(xùn)練階段,通過AI算法判斷集群狀態(tài)“未雨綢繆”,和故障發(fā)生時(shí)實(shí)現(xiàn)秒級(jí)感知和定位進(jìn)行快速處理,從而實(shí)現(xiàn)接近無損的集群容錯(cuò)。此外,百舸4.0還能夠通過一系列加速方法,實(shí)現(xiàn)模型推理的降本增效。
就此,沈抖給出了一組數(shù)據(jù):目前在萬卡任務(wù)上,百舸4.0可以保障有效訓(xùn)練時(shí)長占比達(dá)到99.5%,遠(yuǎn)高于行業(yè)內(nèi)公布的相關(guān)指標(biāo);在集群的模型訓(xùn)練效率方面,百舸4.0整體性能比業(yè)界平均水平提升了高達(dá)30%;在模型推理方面,百舸4.0長文本推理效率提升超過1倍。
而面對(duì)十萬卡集群,百舸4.0已經(jīng)構(gòu)建了超大規(guī)模無擁塞HPN高性能網(wǎng)絡(luò)、10ms級(jí)別超高精度網(wǎng)絡(luò)監(jiān)控,以及面向十萬卡集群的分鐘級(jí)故障恢復(fù)能力?!鞍亵?.0正是為部署十萬卡大規(guī)模集群而設(shè)計(jì)的。今天的百舸4.0,已經(jīng)具備了成熟的十萬卡集群部署和管理能力,就是要突破這些新挑戰(zhàn),為整個(gè)產(chǎn)業(yè)提供持續(xù)領(lǐng)先的算力平臺(tái)?!鄙蚨吨赋?。
應(yīng)用序幕拉開
考慮到GPU采購及運(yùn)營的成本問題,提升算力的有效利用率,換個(gè)理解,就是省錢。
這與當(dāng)前業(yè)界“不算眼前賬”、“燒錢”降價(jià)帶動(dòng)應(yīng)用爆發(fā)的思路有所不同。有開發(fā)者向21世紀(jì)經(jīng)濟(jì)報(bào)道記者指出,過去一年內(nèi),大模型的降價(jià)更多是由平臺(tái)補(bǔ)貼所致,但這并不能解決本質(zhì)上的問題。
通過提升算力有效利用率,百度智能云正在持續(xù)降低模型調(diào)用成本。沈抖介紹,過去一年,文心旗艦大模型降價(jià)幅度超過90%、主力模型全面免費(fèi),最大限度降低企業(yè)創(chuàng)新試錯(cuò)的成本。
不過,相較于別的廠商而言,本次百度云智大會(huì)的重點(diǎn)顯然并未落在降價(jià)身上,而是放在了推動(dòng)大模型落地的需求滿足方面。
沈抖透露,進(jìn)入2024年,百度智能云的許多客戶已經(jīng)開始將大模型落地在自身的生產(chǎn)力場(chǎng)景中。目前在千帆平臺(tái)上,文心大模型日均調(diào)用量超過7億次,千帆平臺(tái)累計(jì)幫助用戶精調(diào)了3萬個(gè)大模型,開發(fā)出70多萬個(gè)企業(yè)級(jí)應(yīng)用。
“這不僅反映了千帆平臺(tái)上大模型的調(diào)用量,也是過去18個(gè)月整個(gè)國內(nèi)大模型產(chǎn)業(yè)發(fā)展的一個(gè)縮影。”沈抖指出。
但在沈抖看來,這只是一個(gè)序幕?!拔覀兿嘈?,大模型給每個(gè)企業(yè)提供了平等的增長機(jī)會(huì)。不管企業(yè)大小、場(chǎng)景多少,誰先用起來,誰就搶占先機(jī)?!?/p>
具體而言,下游企業(yè)與開發(fā)者要真正用上大模型、用好大模型,離不開便捷、高效的大模型工具鏈和應(yīng)用開發(fā)平臺(tái)。就此,百度智能云發(fā)布千帆大模型平臺(tái)3.0。
據(jù)介紹,升級(jí)后的千帆平臺(tái),不僅可以調(diào)用包括文心系列大模型在內(nèi)的近百個(gè)國內(nèi)外大模型,還支持調(diào)用語音、視覺等各種傳統(tǒng)的小模型。同時(shí)在模型開發(fā)方面實(shí)現(xiàn)數(shù)據(jù)、模型、算力等資源的統(tǒng)一納管和調(diào)度,為企業(yè)提供一站式的大、小模型開發(fā)服務(wù)。
在應(yīng)用開發(fā)方面,針對(duì)企業(yè)落地大模型的高頻應(yīng)用場(chǎng)景,千帆3.0從檢索效果、檢索性能、存儲(chǔ)擴(kuò)展、調(diào)配靈活性四方面對(duì)企業(yè)級(jí)檢索增強(qiáng)生成(RAG)進(jìn)行了全面升級(jí);針對(duì)企業(yè)級(jí)智能體的開發(fā),千帆3.0增加了業(yè)務(wù)自主編排、人工編排、知識(shí)注入、記憶能力以及百度搜索等80多個(gè)官方組件支持。
眾多AI應(yīng)用的發(fā)展方向,李彥宏直言最看好智能體,并將之視為PC時(shí)代的網(wǎng)站和自媒體時(shí)代的賬號(hào)。
李彥宏表示,智能體最明顯的特點(diǎn)是門檻足夠低,誰都能上手,但同時(shí)天花板又足夠高,可以做出非常復(fù)雜,非常強(qiáng)大的應(yīng)用。未來,將會(huì)有數(shù)以百萬量級(jí)的智能體出現(xiàn),形成龐大的智能體生態(tài)。
值得一提的是,在今年百度舉辦的“文心杯”創(chuàng)業(yè)大賽中,有超過60%參賽團(tuán)隊(duì)聚焦智能體的應(yīng)用,超過30%參賽團(tuán)隊(duì)沒有專業(yè)程序員。
不過,目前智能體還并非業(yè)界共識(shí)?!跋癜俣冗@樣把智能體作為大模型最重要的戰(zhàn)略、最重要的發(fā)展方向的公司并不多?!崩顝┖晏寡缘馈?/p>
智能云演進(jìn)
大模型時(shí)代需要怎樣的云?百度通過云智大會(huì),給出了自己的答案。
而這,也是百度云借道大模型爆發(fā),從而搶占市場(chǎng)的思路。
目前,從絕對(duì)市場(chǎng)份額來說,百度智能云并不算有優(yōu)勢(shì)。根據(jù)Canalys披露的最新數(shù)據(jù),2024年第二季度,中國大陸云基礎(chǔ)設(shè)施服務(wù)支出達(dá)到94億美元,同比增長8%。阿里云、華為云和騰訊云繼續(xù)主導(dǎo)市場(chǎng),共占71%的市場(chǎng)份額。
不過從增速而言,百度云正在追趕中。在百度2024年第二季度財(cái)報(bào)電話會(huì)上,李彥宏透露,百度智能云在本季度營收達(dá)51億元,同比增長14%,并持續(xù)實(shí)現(xiàn)盈利(Non-GAAP)。
相較之下,阿里云第二季度營收增長6%,華為云13%,騰訊云未直接披露收入增速。
之所以智能云能夠?qū)崿F(xiàn)超出市場(chǎng)的增長,與百度AI大模型能力密不可分。隨著文心大模型及文心一言的發(fā)布,百度在AI領(lǐng)域進(jìn)一步鞏固、拓展了自身的優(yōu)勢(shì)領(lǐng)域。而生成式AI及大語言模型的能力,又轉(zhuǎn)而增強(qiáng)了百度在云端的競(jìng)爭(zhēng)優(yōu)勢(shì)。
因此也就不難理解,受益于大模型訓(xùn)練及推理需求等,百度智能云業(yè)務(wù)收入實(shí)現(xiàn)可觀增長。根據(jù)百度方面披露的數(shù)據(jù),今年二季度智能云收入中,AI貢獻(xiàn)的收入占比進(jìn)一步提升至9%,高于上一季度的6.9%。
根據(jù)IDC發(fā)布的《中國大模型平臺(tái)市場(chǎng)份額,2023:大模型元年—初局》顯示,2023年中國大模型平臺(tái)及相關(guān)應(yīng)用市場(chǎng)規(guī)模達(dá)17.65億元,百度智能云在2023年大模型市場(chǎng)規(guī)模達(dá)3.5億元,位居市場(chǎng)第一,市場(chǎng)份額達(dá)19.9%。
海通國際研報(bào)認(rèn)為,百度此次云智大會(huì)展現(xiàn)了其在大模型賽道全線的能力。百度一直在持續(xù)迭代并鞏固其行業(yè)領(lǐng)先的地位。盡管商業(yè)化前景尚不明確,但隨著宏觀經(jīng)濟(jì)好轉(zhuǎn),大模型大規(guī)模商用的時(shí)間節(jié)點(diǎn)到達(dá),百度有望憑借其先發(fā)優(yōu)勢(shì),在廣告、智能體、模型訓(xùn)練推理、智能云部署方面率先獲得增量收入。