12 月 6 日,谷歌宣布推出模型 Gemini,其中Gemini Ultra 版本在32個性能基準測試中的30個中,超越了現有最先進的GPT-4。Gemini是一開始就使用多模態數據(包括文字、音頻、圖片、視頻、PDF 文件等)訓練的大模型,其中視頻數據訓練是通過將視頻編碼為一系列幀序列,視頻幀(圖像)可以與文本或音頻實現混合訓練。Gemini 大模型最核心亮點在于對視頻多模態的理解能力,擁有視頻數據與應用卡位的企業或有重估機遇;另外,視頻分析行業目前在數據處理規模、速度和深度等方面存在亟待解決的問題,原生多模態大模型有望解決行業痛點,打開行業天花板。
多模態大模型對算力部署、算法改進、硬件升級提出了新的挑戰和新的機遇,Gemini 并沒有依賴英偉達芯片算力,而是由Google 自研的TPU v4 和 TPU v5e。最新一代 TPU V5p 單芯片算力達到 459TFLOPs(Bf16),最高支持 8960 片 TPU 組合超級節點并帶來高達 4800Gb/s 的片間互聯速度。

當前AI 生文、生圖應用層出不窮,而AI生成視頻領域仍處于相對早期發展階段,盡管有一些初步嘗試和突破,但難以與其他AI生成內容相媲美,它們仍然存在許多問題,抖動、閃現,以及頻繁出現的畫面跳變,這種“鬼畜”現象很難保證穩定的生成效果。
11月28日,Pika 文生視頻 AI 應用的出現,給 AI 生成式視頻添了一把旺火,再次燃起了人們對 AI 文生視頻賽道的關注。Pika 1.0 支持 3 種方式生成視頻:文生視頻、圖生視頻、視頻轉視頻,感覺完全重新做了一個模型,最擅長 2D、3D 動畫。
12月12日,李飛飛團隊與谷歌合作,推出了AI視頻生成模型W.A.L.T(窗口注意力潛在Transformer ,Window Attention Latent Transformer),可以通過自然語言提示生成3秒長的每秒8幀、分辨率達512×896的逼真視頻;可以讓一張靜圖變為生動活潑的動圖;還能生成3D攝像機運動的視覺效果。英偉達高級科學家 Jim Fan 評論:2022 年是影像之年,2023是聲波之年,而2024 將是視頻之年!

AI發展正從軟件主導轉向硬件+軟件并行驅動,而智能設備作為AI觸達用戶的終極載體,正成為AI未來發展與落地的重要突破口。大模型重構有望從 AI PC 開始共振,逐步延伸至汽車、手機與機器人等各類終端,2024或將迎來全面一輪的 AI 終端硬件創新潮,端側AI大幕已然拉開。

(1)AI穿戴設備
AI穿戴設備受交互方式、承載信息量等限制,還需探索更多應用場景,但其為AI終端的發展提供了一些參考。11月10日,OpenAI、微軟等巨頭投資的Humane公司發布了智能穿戴設備AI Pin。AI Pin是一款可吸附在衣服上的無屏穿戴設備,內置OpenAI的GPT大模型,可通過語音、觸摸板、激光投影和手勢進行交互。AI Pin可執行撰寫文稿、整理電郵、實時翻譯、識別食物并提供營養信息等任務,還支持Tidal音樂流。Humane計劃未來為AI Pin增加導航和購物功能,并提供開發工具。
(2)AI手機
智能手機滲透率接近天花板,且產品整體缺乏足夠的創新,手機出貨開始呈現周期性特征。AI手機將AI模型/應用與手機結合,為手機產業帶來創新變革,或帶來智能手機行業新一輪的創新周期。目前已上市的AI手機Vivo X100和Google Pixel 8均搭載了幾十億參數級別的輕量化AI模型,相關的AI應用主要集中在AI助手、文字生成、語音/圖像/視頻處理等方面。
(3)AI PC
經過30多年的發展,PC形式經歷了桌面PC-筆電-平板電腦的變化,滲透率已接近天花板,整體上PC產業缺乏足夠的創新,人們對傳統PC的需求更多來自于自然的換機周期。作為生產力工具,PC與AI大模型的結合為PC產業帶來硬件架構設計、交互方式、數字內容、應用生態等方面的變革,有望大幅提升用戶辦公、設計、內容創作等方面的效率。
(4)AI XR
XR設備可承載海量的信息流和深度的內容數據,其獨特的優勢使它能成為個人空間的延伸。計算機視覺、自然語言交互、深度學習等先進AI技術能使XR設備提供逼真的沉浸感、交互性和無縫的MR體驗。內容方面,XR產業通過GPT等生成式AI的編碼能力和虛擬世界中模型/環境/角色的自創能力,幫助企業持續提升生產力。AI與XR的融合或創造全新的生態,推動數字體驗的發展,并將其擴展到制造業、虛擬生產、電子商務、教育等行業。
如,蘋果的Vision Pro開啟了空間計算時代,帶來了全新的3D交互方式。生成式AI賦能空間計算將大幅推動產業的技術革新并提升用戶體驗。AI構建的底層框架,與空間計算的結合,有望創造出更宏偉的元宇宙上層建筑。
(5)AI座艙
汽車智能座艙可承載海量信息和各類內容數據,同時考慮到駕駛過程中信息接收和操作的便利性,智能汽車有望成為手機/PC應用場景的延伸,成為新的生活空間。AI與智能座艙的結合讓交互更加擬人化,在大模型的賦能下,語音助手可實現更加類人的交流;基于對娛樂、辦公、社交等不同的需求,座艙可提供個性化的服務。此外,座艙與智駕的融合或是未來一大趨勢,AI在其中將發揮更大的作用。

AI 大模型預訓練數據量呈指數級增長,帶動算力需求爆發(訓練階段算力需求=6×模型參數數量×訓練集規模)。算力已成為推動數字經濟飛速發展的新引擎,人工智能進入算力新時代,全球算力規模呈現高速增長態勢。美國對高端 GPU 供應限制不斷趨嚴,國產 AI 算力芯片廠商迎來黃金發展期,海光 DCU、寒武紀思元系列、華為昇騰系列、壁仞科技GPGPU等有望加速實現國產替代。
