12 月 6 日,谷歌宣布推出模型 Gemini,其中Gemini Ultra 版本在32個性能基準(zhǔn)測試中的30個中,超越了現(xiàn)有最先進(jìn)的GPT-4。Gemini是一開始就使用多模態(tài)數(shù)據(jù)(包括文字、音頻、圖片、視頻、PDF 文件等)訓(xùn)練的大模型,其中視頻數(shù)據(jù)訓(xùn)練是通過將視頻編碼為一系列幀序列,視頻幀(圖像)可以與文本或音頻實(shí)現(xiàn)混合訓(xùn)練。Gemini 大模型最核心亮點(diǎn)在于對視頻多模態(tài)的理解能力,擁有視頻數(shù)據(jù)與應(yīng)用卡位的企業(yè)或有重估機(jī)遇;另外,視頻分析行業(yè)目前在數(shù)據(jù)處理規(guī)模、速度和深度等方面存在亟待解決的問題,原生多模態(tài)大模型有望解決行業(yè)痛點(diǎn),打開行業(yè)天花板。
多模態(tài)大模型對算力部署、算法改進(jìn)、硬件升級提出了新的挑戰(zhàn)和新的機(jī)遇,Gemini 并沒有依賴英偉達(dá)芯片算力,而是由Google 自研的TPU v4 和 TPU v5e。最新一代 TPU V5p 單芯片算力達(dá)到 459TFLOPs(Bf16),最高支持 8960 片 TPU 組合超級節(jié)點(diǎn)并帶來高達(dá) 4800Gb/s 的片間互聯(lián)速度。

當(dāng)前AI 生文、生圖應(yīng)用層出不窮,而AI生成視頻領(lǐng)域仍處于相對早期發(fā)展階段,盡管有一些初步嘗試和突破,但難以與其他AI生成內(nèi)容相媲美,它們?nèi)匀淮嬖谠S多問題,抖動、閃現(xiàn),以及頻繁出現(xiàn)的畫面跳變,這種“鬼畜”現(xiàn)象很難保證穩(wěn)定的生成效果。
11月28日,Pika 文生視頻 AI 應(yīng)用的出現(xiàn),給 AI 生成式視頻添了一把旺火,再次燃起了人們對 AI 文生視頻賽道的關(guān)注。Pika 1.0 支持 3 種方式生成視頻:文生視頻、圖生視頻、視頻轉(zhuǎn)視頻,感覺完全重新做了一個模型,最擅長 2D、3D 動畫。
12月12日,李飛飛團(tuán)隊與谷歌合作,推出了AI視頻生成模型W.A.L.T(窗口注意力潛在Transformer ,Window Attention Latent Transformer),可以通過自然語言提示生成3秒長的每秒8幀、分辨率達(dá)512×896的逼真視頻;可以讓一張靜圖變?yōu)樯鷦踊顫姷膭訄D;還能生成3D攝像機(jī)運(yùn)動的視覺效果。英偉達(dá)高級科學(xué)家 Jim Fan 評論:2022 年是影像之年,2023是聲波之年,而2024 將是視頻之年!

AI發(fā)展正從軟件主導(dǎo)轉(zhuǎn)向硬件+軟件并行驅(qū)動,而智能設(shè)備作為AI觸達(dá)用戶的終極載體,正成為AI未來發(fā)展與落地的重要突破口。大模型重構(gòu)有望從 AI PC 開始共振,逐步延伸至汽車、手機(jī)與機(jī)器人等各類終端,2024或?qū)⒂瓉砣嬉惠喌?AI 終端硬件創(chuàng)新潮,端側(cè)AI大幕已然拉開。

(1)AI穿戴設(shè)備
AI穿戴設(shè)備受交互方式、承載信息量等限制,還需探索更多應(yīng)用場景,但其為AI終端的發(fā)展提供了一些參考。11月10日,OpenAI、微軟等巨頭投資的Humane公司發(fā)布了智能穿戴設(shè)備AI Pin。AI Pin是一款可吸附在衣服上的無屏穿戴設(shè)備,內(nèi)置OpenAI的GPT大模型,可通過語音、觸摸板、激光投影和手勢進(jìn)行交互。AI Pin可執(zhí)行撰寫文稿、整理電郵、實(shí)時翻譯、識別食物并提供營養(yǎng)信息等任務(wù),還支持Tidal音樂流。Humane計劃未來為AI Pin增加導(dǎo)航和購物功能,并提供開發(fā)工具。
(2)AI手機(jī)
智能手機(jī)滲透率接近天花板,且產(chǎn)品整體缺乏足夠的創(chuàng)新,手機(jī)出貨開始呈現(xiàn)周期性特征。AI手機(jī)將AI模型/應(yīng)用與手機(jī)結(jié)合,為手機(jī)產(chǎn)業(yè)帶來創(chuàng)新變革,或帶來智能手機(jī)行業(yè)新一輪的創(chuàng)新周期。目前已上市的AI手機(jī)Vivo X100和Google Pixel 8均搭載了幾十億參數(shù)級別的輕量化AI模型,相關(guān)的AI應(yīng)用主要集中在AI助手、文字生成、語音/圖像/視頻處理等方面。
(3)AI PC
經(jīng)過30多年的發(fā)展,PC形式經(jīng)歷了桌面PC-筆電-平板電腦的變化,滲透率已接近天花板,整體上PC產(chǎn)業(yè)缺乏足夠的創(chuàng)新,人們對傳統(tǒng)PC的需求更多來自于自然的換機(jī)周期。作為生產(chǎn)力工具,PC與AI大模型的結(jié)合為PC產(chǎn)業(yè)帶來硬件架構(gòu)設(shè)計、交互方式、數(shù)字內(nèi)容、應(yīng)用生態(tài)等方面的變革,有望大幅提升用戶辦公、設(shè)計、內(nèi)容創(chuàng)作等方面的效率。
(4)AI XR
XR設(shè)備可承載海量的信息流和深度的內(nèi)容數(shù)據(jù),其獨(dú)特的優(yōu)勢使它能成為個人空間的延伸。計算機(jī)視覺、自然語言交互、深度學(xué)習(xí)等先進(jìn)AI技術(shù)能使XR設(shè)備提供逼真的沉浸感、交互性和無縫的MR體驗。內(nèi)容方面,XR產(chǎn)業(yè)通過GPT等生成式AI的編碼能力和虛擬世界中模型/環(huán)境/角色的自創(chuàng)能力,幫助企業(yè)持續(xù)提升生產(chǎn)力。AI與XR的融合或創(chuàng)造全新的生態(tài),推動數(shù)字體驗的發(fā)展,并將其擴(kuò)展到制造業(yè)、虛擬生產(chǎn)、電子商務(wù)、教育等行業(yè)。
如,蘋果的Vision Pro開啟了空間計算時代,帶來了全新的3D交互方式。生成式AI賦能空間計算將大幅推動產(chǎn)業(yè)的技術(shù)革新并提升用戶體驗。AI構(gòu)建的底層框架,與空間計算的結(jié)合,有望創(chuàng)造出更宏偉的元宇宙上層建筑。
(5)AI座艙
汽車智能座艙可承載海量信息和各類內(nèi)容數(shù)據(jù),同時考慮到駕駛過程中信息接收和操作的便利性,智能汽車有望成為手機(jī)/PC應(yīng)用場景的延伸,成為新的生活空間。AI與智能座艙的結(jié)合讓交互更加擬人化,在大模型的賦能下,語音助手可實(shí)現(xiàn)更加類人的交流;基于對娛樂、辦公、社交等不同的需求,座艙可提供個性化的服務(wù)。此外,座艙與智駕的融合或是未來一大趨勢,AI在其中將發(fā)揮更大的作用。

AI 大模型預(yù)訓(xùn)練數(shù)據(jù)量呈指數(shù)級增長,帶動算力需求爆發(fā)(訓(xùn)練階段算力需求=6×模型參數(shù)數(shù)量×訓(xùn)練集規(guī)模)。算力已成為推動數(shù)字經(jīng)濟(jì)飛速發(fā)展的新引擎,人工智能進(jìn)入算力新時代,全球算力規(guī)模呈現(xiàn)高速增長態(tài)勢。美國對高端 GPU 供應(yīng)限制不斷趨嚴(yán),國產(chǎn) AI 算力芯片廠商迎來黃金發(fā)展期,海光 DCU、寒武紀(jì)思元系列、華為昇騰系列、壁仞科技GPGPU等有望加速實(shí)現(xiàn)國產(chǎn)替代。
