AI大模型動態(tài)和趨勢

FZ — Thu, 21 Dec 2023 15:07:29 +0000

一、模型多模態(tài)化

1、谷歌發(fā)布Gemini 大模型

12 月 6 日，谷歌宣布推出模型 Gemini，其中Gemini Ultra 版本在32個性能基準(zhǔn)測試中的30個中，超越了現(xiàn)有最先進(jìn)的GPT-4。Gemini是一開始就使用多模態(tài)數(shù)據(jù)（包括文字、音頻、圖片、視頻、PDF 文件等）訓(xùn)練的大模型，其中視頻數(shù)據(jù)訓(xùn)練是通過將視頻編碼為一系列幀序列，視頻幀（圖像）可以與文本或音頻實(shí)現(xiàn)混合訓(xùn)練。Gemini 大模型最核心亮點(diǎn)在于對視頻多模態(tài)的理解能力，擁有視頻數(shù)據(jù)與應(yīng)用卡位的企業(yè)或有重估機(jī)遇；另外，視頻分析行業(yè)目前在數(shù)據(jù)處理規(guī)模、速度和深度等方面存在亟待解決的問題，原生多模態(tài)大模型有望解決行業(yè)痛點(diǎn)，打開行業(yè)天花板。

多模態(tài)大模型對算力部署、算法改進(jìn)、硬件升級提出了新的挑戰(zhàn)和新的機(jī)遇，Gemini 并沒有依賴英偉達(dá)芯片算力，而是由Google 自研的TPU v4 和 TPU v5e。最新一代 TPU V5p 單芯片算力達(dá)到 459TFLOPs（Bf16），最高支持 8960 片 TPU 組合超級節(jié)點(diǎn)并帶來高達(dá) 4800Gb/s 的片間互聯(lián)速度。

2、2024是生成視頻之年

當(dāng)前AI 生文、生圖應(yīng)用層出不窮，而AI生成視頻領(lǐng)域仍處于相對早期發(fā)展階段，盡管有一些初步嘗試和突破，但難以與其他AI生成內(nèi)容相媲美，它們?nèi)匀淮嬖谠S多問題，抖動、閃現(xiàn)，以及頻繁出現(xiàn)的畫面跳變，這種“鬼畜”現(xiàn)象很難保證穩(wěn)定的生成效果。

11月28日，Pika 文生視頻 AI 應(yīng)用的出現(xiàn)，給 AI 生成式視頻添了一把旺火，再次燃起了人們對 AI 文生視頻賽道的關(guān)注。Pika 1.0 支持 3 種方式生成視頻：文生視頻、圖生視頻、視頻轉(zhuǎn)視頻，感覺完全重新做了一個模型，最擅長 2D、3D 動畫。

12月12日，李飛飛團(tuán)隊與谷歌合作，推出了AI視頻生成模型W.A.L.T（窗口注意力潛在Transformer ，Window Attention Latent Transformer），可以通過自然語言提示生成3秒長的每秒8幀、分辨率達(dá)512×896的逼真視頻；可以讓一張靜圖變?yōu)樯鷦踊顫姷膭訄D；還能生成3D攝像機(jī)運(yùn)動的視覺效果。英偉達(dá)高級科學(xué)家 Jim Fan 評論：2022 年是影像之年，2023是聲波之年，而2024 將是視頻之年！

二、AI終端重構(gòu)

AI發(fā)展正從軟件主導(dǎo)轉(zhuǎn)向硬件+軟件并行驅(qū)動，而智能設(shè)備作為AI觸達(dá)用戶的終極載體，正成為AI未來發(fā)展與落地的重要突破口。大模型重構(gòu)有望從 AI PC 開始共振，逐步延伸至汽車、手機(jī)與機(jī)器人等各類終端，2024或?qū)⒂瓉砣嬉惠喌?AI 終端硬件創(chuàng)新潮，端側(cè)AI大幕已然拉開。

（1）AI穿戴設(shè)備

AI穿戴設(shè)備受交互方式、承載信息量等限制，還需探索更多應(yīng)用場景，但其為AI終端的發(fā)展提供了一些參考。11月10日，OpenAI、微軟等巨頭投資的Humane公司發(fā)布了智能穿戴設(shè)備AI Pin。AI Pin是一款可吸附在衣服上的無屏穿戴設(shè)備，內(nèi)置OpenAI的GPT大模型，可通過語音、觸摸板、激光投影和手勢進(jìn)行交互。AI Pin可執(zhí)行撰寫文稿、整理電郵、實(shí)時翻譯、識別食物并提供營養(yǎng)信息等任務(wù)，還支持Tidal音樂流。Humane計劃未來為AI Pin增加導(dǎo)航和購物功能，并提供開發(fā)工具。

（2）AI手機(jī)

智能手機(jī)滲透率接近天花板，且產(chǎn)品整體缺乏足夠的創(chuàng)新，手機(jī)出貨開始呈現(xiàn)周期性特征。AI手機(jī)將AI模型/應(yīng)用與手機(jī)結(jié)合，為手機(jī)產(chǎn)業(yè)帶來創(chuàng)新變革，或帶來智能手機(jī)行業(yè)新一輪的創(chuàng)新周期。目前已上市的AI手機(jī)Vivo X100和Google Pixel 8均搭載了幾十億參數(shù)級別的輕量化AI模型，相關(guān)的AI應(yīng)用主要集中在AI助手、文字生成、語音/圖像/視頻處理等方面。

（3）AI PC

經(jīng)過30多年的發(fā)展，PC形式經(jīng)歷了桌面PC-筆電-平板電腦的變化，滲透率已接近天花板，整體上PC產(chǎn)業(yè)缺乏足夠的創(chuàng)新，人們對傳統(tǒng)PC的需求更多來自于自然的換機(jī)周期。作為生產(chǎn)力工具，PC與AI大模型的結(jié)合為PC產(chǎn)業(yè)帶來硬件架構(gòu)設(shè)計、交互方式、數(shù)字內(nèi)容、應(yīng)用生態(tài)等方面的變革，有望大幅提升用戶辦公、設(shè)計、內(nèi)容創(chuàng)作等方面的效率。

（4）AI XR

XR設(shè)備可承載海量的信息流和深度的內(nèi)容數(shù)據(jù)，其獨(dú)特的優(yōu)勢使它能成為個人空間的延伸。計算機(jī)視覺、自然語言交互、深度學(xué)習(xí)等先進(jìn)AI技術(shù)能使XR設(shè)備提供逼真的沉浸感、交互性和無縫的MR體驗。內(nèi)容方面，XR產(chǎn)業(yè)通過GPT等生成式AI的編碼能力和虛擬世界中模型/環(huán)境/角色的自創(chuàng)能力，幫助企業(yè)持續(xù)提升生產(chǎn)力。AI與XR的融合或創(chuàng)造全新的生態(tài)，推動數(shù)字體驗的發(fā)展，并將其擴(kuò)展到制造業(yè)、虛擬生產(chǎn)、電子商務(wù)、教育等行業(yè)。

如，蘋果的Vision Pro開啟了空間計算時代，帶來了全新的3D交互方式。生成式AI賦能空間計算將大幅推動產(chǎn)業(yè)的技術(shù)革新并提升用戶體驗。AI構(gòu)建的底層框架，與空間計算的結(jié)合，有望創(chuàng)造出更宏偉的元宇宙上層建筑。

（5）AI座艙

汽車智能座艙可承載海量信息和各類內(nèi)容數(shù)據(jù)，同時考慮到駕駛過程中信息接收和操作的便利性，智能汽車有望成為手機(jī)/PC應(yīng)用場景的延伸，成為新的生活空間。AI與智能座艙的結(jié)合讓交互更加擬人化，在大模型的賦能下，語音助手可實(shí)現(xiàn)更加類人的交流；基于對娛樂、辦公、社交等不同的需求，座艙可提供個性化的服務(wù)。此外，座艙與智駕的融合或是未來一大趨勢，AI在其中將發(fā)揮更大的作用。

三、算力國產(chǎn)化