掃一掃
下載數(shù)字化報APP
谷歌Gemini橫空出世,再次讓大家的目光聚焦在了多模態(tài)大模型上。
Gemini1.0號稱具有原生多模態(tài)能力,能夠處理視頻、音頻、圖像、文本和代碼等多種形式的內(nèi)容,且性能優(yōu)于現(xiàn)有的“拼接型”多模態(tài)大模型。從谷歌官方公布的技術(shù)文檔中的示例來看,Gemini不僅能夠進行雙模態(tài)之間的轉(zhuǎn)換(如文生圖或文生視頻),亦能處理需要進行多模態(tài)轉(zhuǎn)換的復(fù)雜任務(wù)。
多模態(tài)的意義在于,為AI應(yīng)用帶來了更多可能性,是通用人工智能(AGI)發(fā)展的關(guān)鍵。
從這個角度來看,Gemini上線是AI產(chǎn)業(yè)發(fā)展的里程碑事件,其代表的原生多模態(tài)大模型有望拓展大模型的應(yīng)用場景和邊界。國盛證券稱,Gemini的問世有望為業(yè)界貢獻大模型泛化能力的全新范式,加速AIGC向AIAgent的轉(zhuǎn)變。
而谷歌作為科技巨頭,擁有豐富的軟硬件生態(tài)。國海證券表示,如果谷歌將旗下產(chǎn)品全面接入Gemini,其搜索引擎和辦公軟件將能夠與微軟的NewBing及Microsoft 365 Copilot對壘;此外,谷歌亦有可能在搭載Android系統(tǒng)的移動設(shè)備上推出類似于Windows Copilot的AI助手,充分發(fā)揮其在2C端的用戶優(yōu)勢,順應(yīng)當前AI手機的發(fā)展潮流。
▌多個多模態(tài)AI應(yīng)用驚艷亮相
最近已有多個多模態(tài)AI應(yīng)用驚艷亮相,包括爆火出圈的Pika,以及三大圖片轉(zhuǎn)視頻神器——阿里的Animate Anyone、字節(jié)跳動的Magic Animate、微軟的GAIA。
對于Pika,大家已經(jīng)耳熟能詳,它是對標Runway Gen-2的AI視頻生成平臺,對于Animate Anyone和Magic Animate,《科創(chuàng)板日報》此前已做過詳細報道。GAIA相關(guān)論文發(fā)布于11月26日,該AI工具的效果同樣出色,能讓一張人物肖像/照片“張嘴說話”,還附帶音頻。
另有多家科技公司在文生視頻領(lǐng)域取得新進展:Meta發(fā)布工具Emu Video,能夠基于文本和圖像輸入生成視頻剪輯;Runway在Gen2中上線Motion Brush動態(tài)筆刷功能,只需對著圖像任意位置一刷,就能讓靜止的一切物體動起來;Stable AI推出Stable Video Diffusion,可以從圖像中生成高品質(zhì)的視頻剪輯。
開源證券表示,科技巨頭之間多模態(tài)大模型的競爭日益激烈,同時驅(qū)動著底層多模態(tài)大模型的能力不斷突破,疊加GPTs等AI應(yīng)用形式的出現(xiàn),AI應(yīng)用有望迎來快速增長期。
▌再次呼喚更多算力
多模態(tài)大模型的算力需求遠高于純文本模態(tài)。以Gemini為例,其強大的多模態(tài)能力背后,是龐大的算力需求。雖然沒有正式公布,但根據(jù)內(nèi)部消息,Gemini有萬億參數(shù),訓(xùn)練所用的算力甚至達到GPT-4的五倍。
有別于傳統(tǒng)大模型對英偉達硬件及生態(tài)的依賴,Gemini訓(xùn)練所需的算力基于谷歌自研的TPU v4和v5e等硬件。在推出新模型的同時,谷歌順勢宣布推出迄今為止功能最強大、最高效、可擴展性最強的TPU系統(tǒng)Cloud TPU v5p,將用于開發(fā)更高層次的AI大模型。
其TPU v5p的訓(xùn)練性能是上一代TPU v4的2.8倍,內(nèi)存帶寬提升3倍,芯片間互聯(lián)帶寬翻倍,達到4.8Tbps,同時,v5p單個POD中的芯片數(shù)量翻倍,達到8960顆。
民生證券認為,谷歌作為自研算力新勢力,有望激化算力市場良性競爭,進而降低算力使用成本。在海外互聯(lián)網(wǎng)巨頭AI模型軍備競賽下算力基建產(chǎn)業(yè)鏈將持續(xù)受益。國盛證券也表示,谷歌作有望為算力供需雙方提供全新選項,從供應(yīng)側(cè)看,有利于技術(shù)的良性競爭,從需求側(cè)看,充分的市場競爭也有利于降低算力的使用成本。
另一方面,因Gemini Nano將登陸谷歌Pixel 8 Pro手機,端側(cè)算力也受到重視。此前高通發(fā)布的報告顯示,未來AI推理的規(guī)模將遠高于AI訓(xùn)練,推理成本將隨著日活用戶數(shù)量及其使用頻率的增加而增加,而云端推理的成本掌握在云廠商手中,這將導(dǎo)致規(guī)?;瘮U展難以持續(xù),因此布署端側(cè)算力是生成式AI規(guī)?;瘮U展至關(guān)重要的一步。
放眼全球AI產(chǎn)業(yè),OpenAI于11月份發(fā)布了GPT-4 Turbo且開放了GPTs,谷歌緊隨其后發(fā)布Gemini,表明人工智能巨頭在大模型領(lǐng)域的競爭依然白熱化。
平安證券表示,在此背景下繼續(xù)看好AI算力需求的增長。國信證券也稱,ChatGPT外,繪圖、視頻等多類AI應(yīng)用陸續(xù)取得進展,訓(xùn)練與后續(xù)推理需求持續(xù),算力基礎(chǔ)設(shè)施長期景氣度持續(xù)。
(來源金融界)未經(jīng)數(shù)字化報網(wǎng)授權(quán),嚴禁轉(zhuǎn)載或鏡像,違者必究。
特別提醒:如內(nèi)容、圖片、視頻出現(xiàn)侵權(quán)問題,請發(fā)送郵箱:tousu_ts@sina.com。
風險提示:數(shù)字化報網(wǎng)呈現(xiàn)的所有信息僅作為學(xué)習分享,不構(gòu)成投資建議,一切投資操作信息不能作為投資依據(jù)。本網(wǎng)站所報道的文章資料、圖片、數(shù)據(jù)等信息來源于互聯(lián)網(wǎng),僅供參考使用,相關(guān)侵權(quán)責任由信息來源第三方承擔。
數(shù)字化報(數(shù)字化商業(yè)報告)是國內(nèi)數(shù)字經(jīng)濟創(chuàng)新門戶網(wǎng)站,以數(shù)字技術(shù)創(chuàng)新發(fā)展為中心,融合數(shù)字經(jīng)濟和實體經(jīng)濟發(fā)展,聚焦制造業(yè)、服務(wù)業(yè)、農(nóng)業(yè)等產(chǎn)業(yè)數(shù)字化轉(zhuǎn)型,致力為讀者提供最新、最權(quán)威、最全面的科技和數(shù)字領(lǐng)域資訊。數(shù)字化報并非新聞媒體,不提供新聞信息服務(wù),提供商業(yè)信息服務(wù);
商務(wù)合作:Hezuo@www.pxdjw.cn
稿件投訴:help@www.pxdjw.cn
Copyright ? 2013-2023 數(shù)字化報(數(shù)字化報商業(yè)報告)
數(shù)字化報并非新聞媒體,不提供新聞信息服務(wù),提供商業(yè)信息服務(wù)
浙ICP備2023000407號數(shù)字化報網(wǎng)(杭州)信息科技有限公司 版權(quán)所有浙公網(wǎng)安備 33012702000464號