MiniMax挑戰(zhàn)Transformer架構,要做AI agent時代的新基建?業(yè)內稱沒有改變本質,尚需應用共識
21世紀經(jīng)濟報道記者鄧浩上海報道
近期基礎大模型領域熱點不斷,先是量化巨頭幻方上線全新系列模型DeepSeek-V3首個版本上線并同步開源,以極低訓練成本引發(fā)海內外對大模型經(jīng)濟性的廣泛討論。
1月15日,本土“大模型六小龍”之一的MiniMax發(fā)布并開源了MiniMax-01全新系列模型,第一次大規(guī)模實現(xiàn)線性注意力機制,直接挑戰(zhàn)傳統(tǒng)的Transformer架構,再一次在行業(yè)掀起巨浪。
某大模型領域專家對記者解釋,“傳統(tǒng)的Transformer的注意力機制的計算復雜度隨著序列長度的增加而呈二次增長,所以做長文本效率很低。MiniMax一直在做’線性注意力機制’這一套,做了比較大的改進,從而可以做到400萬token的超長上下文?!?/p>
也有不少業(yè)內人士對記者表示,MiniMax的創(chuàng)新可以增強現(xiàn)有方法的效率,但沒有改變本質。實際效果還需要應用的驗證和共識。
創(chuàng)新大模型增強效率
此前,MiniMax一直選擇閉源,外界對其技術細節(jié)知之甚少,沒想到這一次上手即是“王炸”。
不僅采用全新架構,而且實現(xiàn)綜合性能比肩海外頂尖模型。據(jù)MiniMax透露,該模型的參數(shù)量高達4560億個,其中單次激活459億個。能夠高效處理全球最長400萬token的上下文,是GPT-4o的32倍,Claude-3.5-Sonnet的20倍。
為什么需要這么大的窗口處理能力?
事實上,在處理長文本內容、復雜任務的高效執(zhí)行以及應對多模態(tài)\跨模態(tài)任務等情況時,越高的信息處理能力越能讓模型充分理解需求,從而得到更優(yōu)的結果。
雪浪云高級副總裁、雪浪工業(yè)軟件研究院副院長郭翹就對記者表示,“我們已經(jīng)積累了不少工業(yè)語料,相當于工業(yè)場景數(shù)據(jù),可以很快測試一些基礎大模型的能力,而上下文的長度是非常重要的指標?!?/p>
為什么可以做到?關鍵在于其使用了基于線性注意力機制的新架構,其中每8層中有7個是基于Lightning Attention的線性注意力,有1層是傳統(tǒng)的SoftMax注意力。
用個通俗的比喻,假如我們需要在一個裝滿卷軸的藏寶箱,找出一個與寶藏位置最相關的卷軸。傳統(tǒng)的注意力機制類似于一群賞金獵人,每一個獵人會把手里的每一個卷軸都與其他所有卷軸依次做比較,隨著卷軸書數(shù)量的增多,工作量會呈平方級增長。
而線性注意力機制相當于一位聰明的考古學家,他用一套相對簡單的辦法,依次對這些卷軸進行檢閱,不斷記錄并累計對線索的理解,最后得出綜合判斷。這個工作量是隨著卷軸增加而線性增長的,相對更高效。
MiniMax稱,主要“受益于我們的架構創(chuàng)新,我們的模型在處理長輸入的時候有非常高的效率,接近線性復雜度。”而且,MiniMax還在技術論文中透露,“我們正在研究更高效的架構,以期完全摒棄softmax注意力機制,從而有可能實現(xiàn)無計算負擔的無限上下文窗口?!?/p>
況客科技(北京)有限公司管理合伙人安嘉晨對記者表示,“(MiniMax的影響)現(xiàn)在談可能還為之過早,之前很多類似的其實最終沒有成功證明自己比transformer好,這個需要應用的驗證和共識。”
某硅谷技術專家也對記者分析,“從去年開始,硅谷一直在詬病Transformer架構,認為沒辦法商用,成本消耗太大。Minimax的模型本質是對現(xiàn)有方法效率的增強,但是沒有改變本質?!?/p>
對于MiniMax來說,花費巨大精力和成本構建這個全新的架構,有著更大的野心。
MiniMax直言,“我們相信2025年會是Agent高速發(fā)展的一年,不管是單Agent的系統(tǒng)需要持續(xù)的記憶,還是多Agent的系統(tǒng)中Agent之間大量的相互通信,都需要越來越長的上下文。在這個模型中,我們走出了第一步,并希望使用這個架構持續(xù)建立復雜Agent所需的基礎能力?!?/p>
不過,上述硅谷技術專家表示并不太認可這個說法,其認為“就單純AI agent來說,其實用不了太多的token,幾千個足夠了。多模態(tài)會需要,但技術還沒到這個點上?!?/p>
安嘉晨則坦言,“MiniMax的應用很成功,星野之類的APP,但是(Agent)用模型的話,我覺得競爭還是很激烈的,現(xiàn)在很難說誰比誰明顯領先多少。”
開源、口碑與性價比
其實,在基礎大模型領域,自從OpenAI推出O1和O3模型之后,產業(yè)界和投資界都逐漸形成新的共識,Scaling Law已經(jīng)趨緩,預訓練模型熱度開始轉向推理模型。
前述硅谷技術專家稱,“預訓練大模型,現(xiàn)在大家有一個統(tǒng)一的共識,還沒辦法轉化成真實的生產力,性價比極不合適。投資人也有點慌,因為不知道要燒(錢)到什么時候?!?/p>
最近的案例是李開復的零一萬物,李開復公開表態(tài),只有大廠能燒超大的模型,“我們覺得要和一個燒得起大模型的大廠合作,以后超大的模型由阿里訓練,我們就可以用小而精的團隊來做小而便宜的模型,擁抱應用的爆發(fā)?!?/p>
實際上,商業(yè)化是擺在現(xiàn)在大模型初創(chuàng)公司面前的一條必答題。
除了零一萬物,月之暗面、百川智能、智譜AI等也在加速探索B端業(yè)務的變現(xiàn),而MiniMax相對比較另類,2023年6月和9月,其相繼在海外和國內上線AI陪伴產品“Talkie”、“星野”。2024年5月上線C端產品“海螺AI”,作為生產力助手。此前有媒體預測,MiniMax2024年收入預計達到7000萬美元,而大部分收入來自Talkie的廣告。
該硅谷技術專家透露,“Minimax在國內比較猶豫,但在海外愿意花錢去租GPU,可以側面印證海外收入還不錯。”
實際上,某熟悉MiniMax的業(yè)內人士曾對記者表示,由于MiniMax創(chuàng)始團隊出身傳統(tǒng)AI四小龍,吃過不少B端的“虧”,比如項目制開發(fā),無法規(guī)?;龃螅麧櫸⒈?,因此其在大模型領域創(chuàng)業(yè)時特別注重商業(yè)變現(xiàn)。
可是,現(xiàn)在價格內卷也開始在預訓練模型不斷蔓延,如何在白菜價中實現(xiàn)規(guī)模盈利,仍將繼續(xù)考驗入局的玩家。
MiniMax稱,“受益于架構的創(chuàng)新、效率的優(yōu)化、集群訓推一體的設計以及我們內部大量并發(fā)算力復用,我們得以用業(yè)內最低的價格區(qū)間提供文本和多模態(tài)理解的API,標準定價是輸入token 1元/百萬token,輸出token 8元/百萬token?!?/p>
對于業(yè)內比較關心的開源問題,MiniMax解釋,“選擇開源,一是因為我們認為這有可能啟發(fā)更多長上下文的研究和應用,從而更快促進Agent時代的到來,二是開源也能促使我們努力做更多創(chuàng)新,更高質量地開展后續(xù)的模型研發(fā)工作?!?/p>
前述硅谷技術專家對此表示,“我覺得大模型開源,主要還是做口碑。特別是在中國,一旦開源,客戶的選擇成本會很低。而且后續(xù)也可以有延伸的增值服務?!?/p>
安嘉晨也認為,“閉源模型要盈利,就只能卷性能,但卷性能和盈利這兩者幾乎很難平衡,也許只有少數(shù)的一兩個才能堅持閉源且盈利;開源的話,卷性能的需求下降了,自然成本壓力也能緩釋,還有可能占個生態(tài)位,未來還有建立商業(yè)模式的可能性?!?/p>
郭翹則對記者分析,“我們只關注開源模型,為什么不用閉源(模型)?因為制造業(yè)的客戶更關心數(shù)據(jù)安全,必須要保證私有化部署,而閉源模型通常是提供網(wǎng)絡接口,通過公有云服務,這是B端客戶不太容易接受的?!?/p>