【全球觀察】Sora 掀起2024年文生視頻AI熱浪
林仲衡、林芷若 中銀國際研究有限公司
隨着OpenAI公司文字生成視頻的AI產品Sora的發布,筆者預計人工智能產業將繼續成為2024年的核心投資機會。Sora展示了遠遠超越同業的強大視頻生成能力,可以預計未來在娛樂應用領域具有巨大潛力。儘管中國企業在「OpenAI-英偉達」這一產業鏈中的參與度普遍較低,但筆者預計文生視頻領域AI的突破將繼續拉動人工智能硬件基礎設施的需求;同時筆者認為文生視頻有帶來更加豐富終端應用的潛力,終端應用的開發亦將充滿投資機會。
技術革新 解決了核心難點
Sora是一種先進的擴散(Diffusion)模型,同時利用了通用GPT模型的Transformer架構,實現了生成高精度視頻的能力。與傳統方法不同,Sora從一個呈現為靜態噪聲的視頻開始,通過多個步驟逐漸去除噪聲,將其轉變為連貫的視頻。Sora的一個關鍵優勢是其能夠一次生成整個視頻,或者擴展現有視頻以使其更長。通過同時為模型提供多個預見幀,Sora解決了文生圖AI的一個核心難點─當一個主體暫時消失時如何保持一致性。
為了實現更廣泛的通用性,Sora將視頻和圖像數據用稱為Patch的較小數據單元的集合來表示,類似於GPT中的Token。這種標準化的數據表達技術實現了在各種視覺數據上訓練擴散Transformer,包括不同的視頻時間、分辨率和寬高比。
Sora建立在DALL·E和GPT模型的研究基礎上。它採用了DALL·E3中的字幕重標註技術,即在視覺訓練數據生成描述性字幕。這種技術增強了模型在生成的視頻中忠實地遵循用戶指令的能力,從而產生更準確和連貫的輸出。
此外,Sora不僅限於從文本生成視頻。它還可以將靜止的圖像內容轉化為一個細節完善栩栩如生的視頻。此外,該模型還具有擴展現有視頻或填充缺失幀的能力,進一步擴展了其應用範圍。
Sora並不是文生視頻技術的首發。2023年,Pika和Runway這樣的AI產品已經令人印象深刻。然而OpenAI的Sora一經發布即以其優秀的技術完全打敗了市場上所有的其他AI工具。與Pika和Runway這兩個擴散AI模型相比,Sora可以生成更長(60秒對比5秒)、更高分辨率和更具沉浸感的視頻。
筆者亦留意到Sora湧現非常多的技術能力。比如無需特別提示,模型可以自動創建不同的拍攝角度,同時視頻中的物體在不同的拍攝角度中保持高度一致。在長視頻中,雖然仍不夠完美,Sora視頻的連貫性和延續性令人印象深刻,人物與物體大致上可以在被遮擋或離開畫面的情況下,仍保持存在。Sora亦可以模擬多個物體之間的複雜互動效果,顯示出對物理世界規律的歸納。這些關鍵的技術能力使具創造力和沉浸感的視頻生成成為了可能,讓Sora在文生視頻AI競爭中具有獨特優勢。
模型仍有待改善地方
OpenAI坦誠Sora仍存在許多不足。對Sora來說,模擬物體之間的複雜互動和多個角色之間的互動仍是具有挑戰性的。它也可能無法理解一些基本的因果關系。筆者認為這顯示出Sora對世界的理解仍是基於統計學的模仿行為,而非基於抽象理論的推理,這與其他基於Transformer和擴散的AI模型沒有明顯的區別。筆者預計隨着時間的推移,Sora將繼續顯著改進,但筆者仍然認為人類距離通用人工智能(AGI)還有很長的路要走。根據Meta首席科學家Yann Le Cun的說法,當前的大語言模型缺乏以下3個方面的能力:
1)從現實世界(而不是文本)中學習;2)常識;3)記憶、推理和層次規劃。AGI級別的AI應能夠在模型參數有限的情況下實現高效學習和計劃。
AI硬件基礎設施投資值得留意
自2022年末以來,生成式AI在文生文(ChatGPT)和文生圖(DALL·E、Mid-journey)方面取得了令人興奮的發展。進入2024年,Sora在文生視頻領域帶來更巨大的突破。筆者認為Sora作為視頻類應用,其商業潛力將更加巨大。類似TikTok和YouTube的視頻應用紛紛在近年成為了全球最受歡迎的應用之一,本質是更快的帶寬和更高的信息密度;視頻類AI亦同理。筆者預計視頻、遊戲、電影和廣告製作公司將是Sora的首批重要用戶。Transformer與Diffusion的技術天花板仍未達到。筆者預計基於Transformer與Diffusion的AI將繼續發展,下一個關鍵突破將是文生3D視頻和文生交互式空間(亦稱元宇宙)。
這條發展道路將繼續帶來對AI三要素—數據、算法和算力的巨大需求。AI硬件基礎設施將繼續是2024年投資的亮點,投資者應繼續緊密關注OpenAI的產品發布。筆者認為全球企業擔心在AI浪潮中落後的心理將持續推動對GPU和其他AI基礎設施硬件的投資。
題為編者所擬。本版文章,為作者之個人意見,不代表本報立場。