一、模型多模態化

1、谷歌發布Gemini 大模型

12 月 6 日，谷歌宣布推出模型 Gemini，其中Gemini Ultra 版本在32個性能基準測試中的30個中，超越了現有最先進的GPT-4。Gemini是一開始就使用多模態數據（包括文字、音頻、圖片、視頻、PDF 文件等）訓練的大模型，其中視頻數據訓練是通過將視頻編碼為一系列幀序列，視頻幀（圖像）可以與文本或音頻實現混合訓練。Gemini 大模型最核心亮點在于對視頻多模態的理解能力，擁有視頻數據與應用卡位的企業或有重估機遇；另外，視頻分析行業目前在數據處理規模、速度和深度等方面存在亟待解決的問題，原生多模態大模型有望解決行業痛點，打開行業天花板。

多模態大模型對算力部署、算法改進、硬件升級提出了新的挑戰和新的機遇，Gemini 并沒有依賴英偉達芯片算力，而是由Google 自研的TPU v4 和 TPU v5e。最新一代 TPU V5p 單芯片算力達到 459TFLOPs（Bf16），最高支持 8960 片 TPU 組合超級節點并帶來高達 4800Gb/s 的片間互聯速度。

2、2024是生成視頻之年

當前AI 生文、生圖應用層出不窮，而AI生成視頻領域仍處于相對早期發展階段，盡管有一些初步嘗試和突破，但難以與其他AI生成內容相媲美，它們仍然存在許多問題，抖動、閃現，以及頻繁出現的畫面跳變，這種“鬼畜”現象很難保證穩定的生成效果。

11月28日，Pika 文生視頻 AI 應用的出現，給 AI 生成式視頻添了一把旺火，再次燃起了人們對 AI 文生視頻賽道的關注。Pika 1.0 支持 3 種方式生成視頻：文生視頻、圖生視頻、視頻轉視頻，感覺完全重新做了一個模型，最擅長 2D、3D 動畫。

12月12日，李飛飛團隊與谷歌合作，推出了AI視頻生成模型W.A.L.T（窗口注意力潛在Transformer ，Window Attention Latent Transformer），可以通過自然語言提示生成3秒長的每秒8幀、分辨率達512×896的逼真視頻；可以讓一張靜圖變為生動活潑的動圖；還能生成3D攝像機運動的視覺效果。英偉達高級科學家 Jim Fan 評論：2022 年是影像之年，2023是聲波之年，而2024 將是視頻之年！

二、AI終端重構

AI發展正從軟件主導轉向硬件+軟件并行驅動，而智能設備作為AI觸達用戶的終極載體，正成為AI未來發展與落地的重要突破口。大模型重構有望從 AI PC 開始共振，逐步延伸至汽車、手機與機器人等各類終端，2024或將迎來全面一輪的 AI 終端硬件創新潮，端側AI大幕已然拉開。

（1）AI穿戴設備

AI穿戴設備受交互方式、承載信息量等限制，還需探索更多應用場景，但其為AI終端的發展提供了一些參考。11月10日，OpenAI、微軟等巨頭投資的Humane公司發布了智能穿戴設備AI Pin。AI Pin是一款可吸附在衣服上的無屏穿戴設備，內置OpenAI的GPT大模型，可通過語音、觸摸板、激光投影和手勢進行交互。AI Pin可執行撰寫文稿、整理電郵、實時翻譯、識別食物并提供營養信息等任務，還支持Tidal音樂流。Humane計劃未來為AI Pin增加導航和購物功能，并提供開發工具。

（2）AI手機

智能手機滲透率接近天花板，且產品整體缺乏足夠的創新，手機出貨開始呈現周期性特征。AI手機將AI模型/應用與手機結合，為手機產業帶來創新變革，或帶來智能手機行業新一輪的創新周期。目前已上市的AI手機Vivo X100和Google Pixel 8均搭載了幾十億參數級別的輕量化AI模型，相關的AI應用主要集中在AI助手、文字生成、語音/圖像/視頻處理等方面。

（3）AI PC

經過30多年的發展，PC形式經歷了桌面PC-筆電-平板電腦的變化，滲透率已接近天花板，整體上PC產業缺乏足夠的創新，人們對傳統PC的需求更多來自于自然的換機周期。作為生產力工具，PC與AI大模型的結合為PC產業帶來硬件架構設計、交互方式、數字內容、應用生態等方面的變革，有望大幅提升用戶辦公、設計、內容創作等方面的效率。

（4）AI XR

XR設備可承載海量的信息流和深度的內容數據，其獨特的優勢使它能成為個人空間的延伸。計算機視覺、自然語言交互、深度學習等先進AI技術能使XR設備提供逼真的沉浸感、交互性和無縫的MR體驗。內容方面，XR產業通過GPT等生成式AI的編碼能力和虛擬世界中模型/環境/角色的自創能力，幫助企業持續提升生產力。AI與XR的融合或創造全新的生態，推動數字體驗的發展，并將其擴展到制造業、虛擬生產、電子商務、教育等行業。

如，蘋果的Vision Pro開啟了空間計算時代，帶來了全新的3D交互方式。生成式AI賦能空間計算將大幅推動產業的技術革新并提升用戶體驗。AI構建的底層框架，與空間計算的結合，有望創造出更宏偉的元宇宙上層建筑。

（5）AI座艙

汽車智能座艙可承載海量信息和各類內容數據，同時考慮到駕駛過程中信息接收和操作的便利性，智能汽車有望成為手機/PC應用場景的延伸，成為新的生活空間。AI與智能座艙的結合讓交互更加擬人化，在大模型的賦能下，語音助手可實現更加類人的交流；基于對娛樂、辦公、社交等不同的需求，座艙可提供個性化的服務。此外，座艙與智駕的融合或是未來一大趨勢，AI在其中將發揮更大的作用。

三、算力國產化

AI 大模型預訓練數據量呈指數級增長，帶動算力需求爆發（訓練階段算力需求=6×模型參數數量×訓練集規模）。算力已成為推動數字經濟飛速發展的新引擎，人工智能進入算力新時代，全球算力規模呈現高速增長態勢。美國對高端 GPU 供應限制不斷趨嚴，國產 AI 算力芯片廠商迎來黃金發展期，海光 DCU、寒武紀思元系列、華為昇騰系列、壁仞科技GPGPU等有望加速實現國產替代。

分類: 政企熱點, 行業輿情標簽: AI PC, AI Pin, 多模態, 算力, 蘋果Vision Pro

上一篇 : 汽車行業動態及發展趨勢

下一篇 : 樂思軟件亮相第三屆全國開源情報技術大會

一、模型多模態化

1、谷歌發布Gemini 大模型

2、2024是生成視頻之年

二、AI終端重構

三、算力國產化

1、谷歌發布Gemini 大模型

2、2024是生成視頻之年

二、AI終端重構

三、算力國產化