硅谷競速:Meta版Sora來襲 萬億估值OpenAI祭出AGI交互系統(tǒng)
21世紀(jì)經(jīng)濟(jì)報道記者孔海麗北京報道
硅谷巨頭的AI競賽愈發(fā)激烈,你來我往,全速出擊。
北京時間10月4日,OpenAI和Meta同時亮出了自己的新武器。
Meta公布了名為 Movie Gen 的全新 AI 模型。它是由視頻生成(Movie Gen Video)和音頻生成(Movie Gen Audio)兩個模型組成,可無縫生產(chǎn)出完整的多媒體內(nèi)容,實現(xiàn)從圖像、視覺到聽覺的全方位覆蓋。Meta稱,這是“迄今最先進(jìn)的媒體基礎(chǔ)模型”。
OpenAI則重磅推出交互界面canvas,并稱“這是一種使用 ChatGPT 寫作和編程的新方式”,也是ChatGPT發(fā)布以來的重大視覺界面升級。用戶可以與ChatGPT 一起協(xié)作完成寫作和編碼項目,整個過程可考、可視,而不再局限于簡單的聊天。
可以預(yù)見的是,在未來一段時間里,科技巨頭將會不斷推陳出新,既包括有革命性意義的新產(chǎn)品、新技術(shù),也有不斷掀起小高潮的持續(xù)性上新。
不確定這場AI競賽何時見分曉,但可以確定的是,巨頭們高居塔尖的算力資源和不斷延展的業(yè)務(wù)邊界,會導(dǎo)致AI創(chuàng)企的生存空間越來越小。
“馬太效應(yīng)”,正在新興的AI領(lǐng)域里逐漸清晰。
Meta版Sora上線
有人將Movie Gen稱之為“Meta版Sora”,其實這并不準(zhǔn)準(zhǔn),更應(yīng)該說“青出于藍(lán)而勝于藍(lán)”,除了Sora具備的視頻生成功能,Movie Gen還可以為視頻生成配套的背景音樂和音效,并根據(jù)指令編輯視頻,直接一步到位。
具體來看,Movie Gen Video是一個30B參數(shù)的Transformer模型,可以從單個文本提示生成16秒、每秒16幀的高清視頻。同時發(fā)布的Movie Gen Audio接受視頻輸入以及可選的文本提示,生成與視頻同步的高保真音頻。
剛剛憑借“地表最強”全息AR眼鏡站上熱搜的扎克伯格,在社交平臺為Movie Gen站臺,將自己的靜態(tài)照片轉(zhuǎn)化為形式多樣的動態(tài)健身視頻,場景不乏幽默和科幻。
Meta放出來的其他示例視頻,展示了Movie Gen生成物體運動軌跡、保持主體物理運動規(guī)律、背景統(tǒng)一、栩栩如生的效果。
作為一體化的 AI 媒體工具,Movie Gen還具備視頻編輯功能,它可以執(zhí)行添加、刪除或替換元素,背景替換、樣式更改等全局修改。
有海外網(wǎng)友感慨說:“隨著大量創(chuàng)作者學(xué)會使用AI視頻編輯工具,很難想象幾年后TikTok(短視頻代表)和YouTube(長視頻代表)會變成什么樣?!?/p>
與Sora的推出節(jié)奏相似,Movie Gen也還需要一段時間才能面向公眾開放,但不同于OpenAI常被調(diào)侃的“close”,Meta爽快公布了一篇長達(dá)92頁的論文,介紹了其在架構(gòu)、訓(xùn)練方法、數(shù)據(jù)管理、評估、并行訓(xùn)練和推理優(yōu)化以及音頻模型的信息。
據(jù)Meta介紹,視頻生成模型在 1 億個視頻和 10 億張圖像上進(jìn)行了預(yù)訓(xùn)練,而音頻生成模型則使用了約 100 萬小時的音頻數(shù)據(jù)。
此外,Meta還開源了多個基準(zhǔn)測試數(shù)據(jù)集,包括Movie Gen Video Bench、Movie Gen Edit Bench和Movie Gen Audio Bench,為后續(xù)研究者提供了權(quán)威的評測工具。
Movie Gen在OpenAI 今年2月展示的文生視頻Sora基礎(chǔ)上,朝著AI視頻編輯方向推進(jìn)了一大步。先行一步的Sora至今仍未正式開放,不過,Sora能夠生成單次時長一分鐘的視頻,而Movie Gen 目前只有16秒。
文生視頻的時長延展進(jìn)化很快。中國快手的可靈大模型,幾個月時間不斷迭代,單次文生視頻從5秒到10秒,如今使用該工具進(jìn)行文生視頻以及圖生視頻,可支持生成長達(dá)3分鐘、1080p分辨率的高清視頻。
萬億OpenAI新動作不斷
Meta向OpenAI開了一槍,但后者并沒閑著。
此前的9月13日,OpenAI正式發(fā)布新的通用語言大模型o1,基于慢思考,在推理能力上完勝人類博士,并在數(shù)學(xué)、物理、化學(xué)、生物學(xué)等領(lǐng)域表現(xiàn)極為優(yōu)異。
其文本編輯系統(tǒng)也在進(jìn)化。同在Movie Gen面世的10月4日,OpenAI宣布推出一個名為canvas的視覺產(chǎn)品,它實際上是一種新的人機交互界面。
canvas是一個內(nèi)置于ChatGPT的文檔和代碼編輯器。用戶不必再在ChatGPT和文檔編輯器之間來回切換,寫文檔時它會自動彈出,可直接在ChatGPT中編輯任何文檔或代碼,在一個界面內(nèi)完成從構(gòu)思到成文的全過程,實現(xiàn)與AI的無縫協(xié)作,從而大大提升工作效率。
有業(yè)內(nèi)人士評論說,OpenAI借由canvas暗示,ChatGPT不僅僅是一個聊天機器人,而是要打造AI時代的操作系統(tǒng)。這暴露了其CEO薩姆·奧特曼(Sam Altman)的非凡野心。不過,canvas下周才會向Enterprise 和 Edu 用戶推出,Plus用戶則可以直接調(diào)用。
此前一天,當(dāng)?shù)貢r間10月2日,OpenAI宣布完成新一輪66億美元融資,投后估值達(dá)到1570億美元(約合人民幣1.1萬億元)。這標(biāo)志著OpenAI從“明星獨角獸”公司過渡到了不折不扣的人工智能巨頭。
本輪融資由風(fēng)投巨頭Thrive Capital領(lǐng)投13億美元,微軟跟投7.5億美元,軟銀集團(tuán)、英偉達(dá)分別投資了5億美元和1億美元,蘋果在最后時刻決定退出。此外,OpenAI還獲得了40億美元的新循環(huán)信用額度。據(jù)介紹,ChatGPT每周用戶數(shù)已超2.5億人,預(yù)計今年收入將達(dá)到37億美元。
據(jù)悉,OpenAI本輪融資資金以可轉(zhuǎn)換票據(jù)的形式提供,但如果它未能在兩年內(nèi)完成公司結(jié)構(gòu)的重組(即公司架構(gòu)由非營利型公司向營利型公司轉(zhuǎn)變),本輪融資的投資者將有權(quán)要求退回投資。
值得注意的是,OpenAI也被曝出要求參與融資的投資者“二選一”,即不得支持其競爭對手的初創(chuàng)公司,包括OpenAI前員工們創(chuàng)立的AI初創(chuàng)公司Anthropic,埃隆·馬斯克(Elon Musk)創(chuàng)立的xAI,OpenAI聯(lián)合創(chuàng)始人、前首席科學(xué)家伊爾亞·蘇茨克維(Ilya Sutskever)成立的新公司SSI(safe superintelligence,安全超級智能)等。消息傳出,馬斯克在社交媒體再次向奧特曼開懟。
伴隨OpenAI公司性質(zhì)轉(zhuǎn)變和發(fā)展方向的分歧,是公司高管持續(xù)的大動蕩。
一周前的9月26日,OpenAI CTO(首席技術(shù)官)米拉·穆拉蒂(Mira Murati)、首席研究官鮑勃·麥格(BobMcGrew)、研究副總裁巴雷特·佐夫(Barret Zoph)同時宣布離職。幾天后的10月2日,OpenAI 聯(lián)合創(chuàng)始人杜爾克·金馬(Diederik Kingma)宣布加入Anthropic。而公司總裁格雷戈里·布羅克曼(Greg Brockman)仍在長期休假中。OpenAI最初的11名創(chuàng)始成員中,除了宮斗回歸的奧特曼,就只剩下語言和代碼生成團(tuán)隊負(fù)責(zé)人沃伊切赫·扎倫巴(Wojciech Zaremba)。
似乎“多事之秋”不足以概括OpenAI的動蕩程度,一邊“著火”一邊“極速前行”,才是OpenAI的常態(tài)。