風起大模型:國內大廠“應戰(zhàn)”Sora
2024年,Sora為AI視頻賽道打響了“發(fā)令槍”。
珠玉在前,國內誰能最先做出“國產版Sora”,又或者另辟蹊徑,走出AI視頻的新路子?到底是會被全盤碾壓,還是各自找到合適的生態(tài)位?Sora的陰影之下,國內大廠同類產品還會有生存余地嗎?
縱觀國內大廠,尚未出現產品能與Sora匹敵的跡象。但應用并非軌道,而是曠野。
近日,阿里巴巴集團智能計算研究所推出了EMO(Emote Portrait Alive)——一款由音頻驅動的肖像—視頻生成框架。在這個應用中,奧黛麗·赫本開始“唱歌”,蒙娜麗莎會“說話”了。
而在Sora發(fā)布以前,字節(jié)跳動曾低調推出了視頻模型Boximator,但堅決否認這是“中文版Sora”;再往前看,百度也曾推出過“度加”創(chuàng)作工具,以AI輔助人工進行視頻制作。
另一方面,Sora也托起了國內相關概念股,如萬興科技、因賽集團等,在Sora發(fā)布后,相關股票迎來了明顯上漲,這些公司的著力點落在泛娛樂、泛營銷等領域。
國內針對Sora評論最為活躍的企業(yè)家是360創(chuàng)始人周鴻祎,他認為,Sora的誕生意味著AGI(通用人工智能)實現可能從十年縮短至一兩年,國內相似AI產品的差距還在繼續(xù)拉大。
一位深度跟蹤AI產業(yè)的投資人看法,或許帶來了新的思考方向。他認為:“其他公司不要跟巨頭在同一條道上競速,肯定是跑不過的,要尋找更多可能性?!?/p>
從“動起來”到“會說話”
Sora問世之后,公眾試圖從國內大廠的產品中尋找“宛宛類卿”的身影。字節(jié)跳動發(fā)布的一款視頻模型技術,就曾被冠上“中文版Sora”的名頭。
但字節(jié)跳動隨后就做出了回應,稱Boximator是視頻生成領域控制對象運動的技術方法研究項目,目前還無法作為完善的產品落地,“而且距離國外領先的視頻生成模型,在畫面質量、保真率、視頻時長等方面還有很大差距?!?/p>
具體來看,Boximator可以通過文本控制生成視頻中人物或物體的動作,但并非直接根據輸入的文本生成視頻,而是按照文字提示將靜態(tài)圖片動態(tài)化。
如果說字節(jié)的Boximator使目標主題的“運動”更加合理流暢,那么阿里的EMO就是讓圖片學會“說話”。
在arXiv的官網上可以看到,距離Sora推出后兩周不到,阿里團隊即發(fā)布了肖像-視頻大模型EMO的論文。研究所表示,此項研究解決了人物說話時頭部視頻生成的真實感和表現力不足的問題。EMO重點關注音頻線索和面部運動之間的動態(tài)和細微關系,利用直接的音頻到視頻的合成方法,繞過中間的3D模型或面部地標的需要,可以確保無縫的幀轉換,使該人物形象能在整個視頻中完整一致,從而產生極具表現力和逼真的動畫。
據不完全統(tǒng)計,截至目前,國內已有超15家企業(yè)推出了視頻生成工具,以字節(jié)、阿里為代表的大廠和以愛詩科技、生數科技為代表的創(chuàng)企們,推出的視頻生成工具在語義理解、運動流暢度、成像質量等方面各有千秋。
Sora的推出可謂是“一石激起千層浪”,從“更好地動起來”到“會說話唱歌”,國內大廠和各家創(chuàng)企后續(xù) “應戰(zhàn)”難度無疑被大幅拉升。
大廠的“危機”
擁有抖音的字節(jié)跳動,在文生視頻大模型訓練上有天然的數據優(yōu)勢。但與此同時,Sora的出現,正在給字節(jié)跳動帶來巨大的“未知”,無論是抖音還是剪映,在短視頻領域都無法忽視Sora所帶來的顛覆性影響。
驚艷的官宣之后,Sora新視頻還在TikTok上持續(xù)推出,且TikTok是獨家放送渠道。逼真的動畫效果,讓網友驚呼“根本想象不到剛剛滑過去的視頻是AI生成的”。
不可否認,Sora對短視頻行業(yè)產生的沖擊,不只包括為短視頻平臺提供更加豐富的供給,也包括增加短視頻平臺治理難度,識別深度偽造、版權糾紛的難度將被加大。
而在視頻AI輔助工具方面,Sora將拉低普通人創(chuàng)作視頻的門檻。當更多人傾向于選擇門檻更低,但效果更好的平臺時,目前市面上的AI視頻工具可能會被淘汰,比如,剪映、快影的用戶,將可能被搶走。
字節(jié)對AI事業(yè)是有焦慮的。今年1月30日,字節(jié)跳動CEO梁汝波在公司年度全員會直言,公司直到2023年才開始討論GPT,而業(yè)內做得比較好的大模型創(chuàng)業(yè)公司都是在2018年至2021年創(chuàng)立的,并多次強調“危機感”。
字節(jié)跳動從去年開始布局AI,2023年11月成立專注于AI創(chuàng)新業(yè)務的新部門Flow。據悉,Flow部門技術負責人為字節(jié)跳動技術副總裁洪定坤。而字節(jié)跳動創(chuàng)始人張一鳴親自牽頭,將去年一年的時間幾乎全都花在了AI上,從其精力分配上也可以看到字節(jié)跳動對AI業(yè)務的重視程度。
巧合的是,在Sora問世一周前,字節(jié)跳動宣布了一項人事變動:原抖音集團CEO張楠辭去集團CEO一職,未來將把精力聚焦在剪映的發(fā)展上。從抖音轉到剪映,字節(jié)不愿錯過AI視頻的關鍵風口。據悉,張楠正親自帶隊尋求在AI輔助創(chuàng)作上有所突破,并計劃推出一個AI生成和視頻的產品,但字節(jié)對此未做更多披露。
張一鳴在2023年公開信中提到,字節(jié)跳動無法錯過AGI(通用人工智能),并表示AGI可以解決字節(jié)跳動的第二曲線增長困境。字節(jié)在GPT的賽道上已經稍顯落后,這次在AI文生視頻領域能否抓住機遇、“釜底抽薪”實現自身短視頻業(yè)務的創(chuàng)新和再次增長,仍需觀望。
阿里近期也是動作不斷,短短4個月內連發(fā)6個新項目,持續(xù)探索AI視頻領域。2023年11月,開源了依據圖像和文字生成高質量視頻的I2VGen-XL,同月發(fā)布了能讓圖中角色跳舞的AnimateAnyone;2023年12月9日發(fā)布了能夠讓圖中角色在任意地點跳舞的DreaMoving,同月與清華大學、華中科技大學等聯合發(fā)布了生成富有表現力頭像的DreamTalk,此外還發(fā)布了使用無文本視頻學習的TF-T2V;今年1月,阿里發(fā)布了使用3D模型替換視頻角色的Motionshop。其中,DreamTalk可以被視為EMO的前身。
阿里的模型和Sora相比,更加注重視頻生成模型在具體行業(yè)的應用,其重點關注人物神態(tài)、跳舞等運動的細節(jié),在影視、游戲等領域有廣泛的應用前景。但正因此,涉及肖像侵權、被使用在不法路徑的風險也會加大。
除字節(jié)和阿里外,百度在AI視頻領域也有自己的規(guī)劃部署。去年百度推出過文生視頻工具“度加剪輯”,主要功能包括AI文案、AI提詞、智能字幕,快速剪輯、AI數字人等,主要是以AI輔助視頻剪輯,為創(chuàng)作者提供便利,在導入素材后提高視頻剪輯效率和觀賞度,并不能直接根據文本生成視頻。
和度加剪輯相搭配,百度還推出了“度加創(chuàng)作工具”,和剪映的“圖文成片”類似,可以自己直接通過AI生成文案,或者自己撰寫文章,度加提供“AI潤色”和“AI擴寫”功能,語言較流暢,多采用“三段論”結構。之后平臺會直接識別文字、提供可選擇的視頻素材,以靜態(tài)圖片變換為主。在百度搜索引擎的加持下,AI匹配的素材較豐富。但據部分使用者體驗,度加在素材和文案的貼合度上還需提高。
點擊“一鍵成片”之后會自動生成視頻。在視頻編輯頁面,度加會智能推薦新的素材,同時素材庫有視頻片段可以替換,比較便捷。視頻生成之后,只能發(fā)布于百家號。
對于Sora此次的“來勢洶洶”,類似于其他大廠,百度未公開發(fā)聲。
不過,百度聯合創(chuàng)始人兼首席執(zhí)行官李彥宏近日在財報電話會上曾對AI領域話題有過回應,他表示,包括文本、音頻和視頻類的多模態(tài)大模型,是未來基礎模型開發(fā)的重要方向,也是AGI的必經之路,百度已經在這一領域進行了投資,并將在未來持續(xù)投入。
“大語言模型的市場是巨大的,而且現在還處于非常早期的階段,即便是最強大的語言模型,對許多應用程序來說,依然不夠好,還有很大的創(chuàng)新空間?!崩顝┖暾f,百度致力于讓更多企業(yè)更容易地獲得大模型服務,以解決各種場景中的現實問題。
他還特別強調了自動駕駛是視覺大模型重要的應用領域,百度一直在訓練自動駕駛系統(tǒng)的視頻生成模型,從而產生更智能、適應性更強、更安全的自動駕駛技術。
21世紀經濟報道記者注意到,百度在AI領域的業(yè)務動作,更注重AI工具與實際應用的結合,關注AI工具的實際落地,“希望AI技術是人人可用的”。
Sora的發(fā)布,無疑給國內大廠造成了不小的壓力,但換個角度想,或許也為各公司提供了一個行之有效的解題方向。
“我們可能也高估了Sora的泛化能力,到底怎么落到應用中去,還不明確?!币晃籄I視頻創(chuàng)業(yè)人士認為,國內大廠在AI工具的應用上,還有作業(yè)空間。
概念股“乘風而起”
隨“Sora風”而動的,還有搭上了Sora概念的A股上市公司。
近來,包括萬興科技、博匯科技、易點天下、數碼視訊、漢王科技、當虹科技、東方國信等10 余家A 股上市公司,都曾披露過公司涉足視頻生成模型領域的業(yè)務情況。
華策影視透露,公司的技術儲備已可實現4秒時長的文生視頻,自研的編劇助手、劇本評估、視頻檢索、AI劇照等功能已在內部應用或內測。與Sora目前60s的文生視頻時長相比,華策影視現有技術還存在差距。
連拉三個漲停板的因賽集團向投資者給出了“公司對于Sora的看法”等問題的答復。因賽集團表示,公司自研的Insight GPT屬于營銷行業(yè)應用層垂類模型,與Sora這類底層通用大模型并不屬于直接競爭關系,反而可以結合Sora等通用大模型豐富自身視頻素材庫以及提升視頻生成效率和品質,對于Sora的出現持樂觀態(tài)度。
但也有多家上市公司公告澄清,并無Sora相關業(yè)務布局。睿能科技、國脈文化、華揚聯眾、維海德等多家公司均發(fā)布股票交易異常波動公告。其中,睿能科技稱,公司核心技術和產品不涉及SRAM芯片、Sora等熱點概念;國脈文化、華揚聯眾表示,公司主營業(yè)務中暫未涉及Sora業(yè)務;維海德稱,公司不涉及文生視頻技術和產品,近期也沒有從事AI大模型業(yè)務的布局。
另有上市公司因涉嫌蹭“Sora概念”被交易所問詢。中科金財借與微軟的合作,聲稱“可率先申請并獲得Sora API訂閱資格”,并由此收獲了漲停板。對此,深交所要求該公司說明是否存在蹭熱點概念股炒作股價的情況。中科金財回復稱,公司與微軟中國的合作系非獨家合作,未來能否快速發(fā)展并取得預期的收入存在較大不確定性。
截至3月8日,涉及Sora概念的公司,多在Sora發(fā)布的一周內收獲了不錯的股價漲幅,并在后續(xù)有所回調。值得注意的是,今年的“Sora概念股”所涉上市公司,部分也在去年因ChatGPT有過一輪股價上漲,并在去年年中回落。
今年開年,“大模型技術提振二級市場表現”的場景重現,不知后續(xù)是否會重演相關概念股股價下跌情形。有從業(yè)人士感慨,如果相關公司在技術上沒有實質性突破,股價漲跌也只是一陣“風”。
IDC中國研究總監(jiān)盧言霞認為,Sora在文生視頻領域真正邁出了第一步,真正做到生成式AI驅動生成短視頻。接下來也將刺激其他科技巨頭加快在該領域的技術攻關力度以及產品發(fā)布速度。要全面打開生成式AI的想象力,還是要依托多模態(tài)大模型。Sora的發(fā)布,以及后續(xù)科技巨頭的跟進,有望對AI產業(yè)帶來再一輪爆發(fā)式的增長。
AI視頻賽道是極具未來意義的,AI對行業(yè)的顛覆性意義正在時間推進中被驗證。
不過,產業(yè)鏈足夠長,上下游的機會也依然廣。
前述投資人士表示:“AI視頻領域還有很多產業(yè)機會,視頻的后處理也有一番天地。比如剪映,隨著前面生產的AI內容產生量變,剪輯工具的作用也會變得重要起來。”
如周鴻祎所言,Sora的成功證明了技術方向的正確性,OpenAI走對了方向,一旦方向感確定,國內公司會快速迎頭趕上。
“但是做AI大模型,極其燒錢?!绷碛蠥I創(chuàng)業(yè)者向21世紀經濟報道記者感慨:“資金和算力,在制約著國內公司的腳步?!?/p>