本文來自微信公眾號:直面AI,作者:小金牙,編輯:肖陽,題圖來自:視覺中國
又是一年谷歌I/O開發(fā)者大會,不出所料地,主題演講又是一場AI交響樂。去年,“AI”一詞在谷歌I/O大會上被提及120次,今年依然是主角,被提及92次。
其中最受關(guān)注的,是谷歌將AI更深入地植入搜索及Chrome瀏覽器:
谷歌搜索將不滿足于在生成結(jié)果中顯示“谷歌摘要”,而是直接會在結(jié)果分類中新增“AI模式”標(biāo)簽,展示效果類似獨(dú)立AI搜索應(yīng)用。
Chrome瀏覽器中將加入Gemini AI助手,未來將能夠“跨多個標(biāo)簽頁工作,并代表用戶瀏覽網(wǎng)站。
這是谷歌對近期爭議的直接回應(yīng)。一方面,谷歌搜索被唱衰。蘋果高管聲稱谷歌搜索受到Perplexity、ChatGPT等競品的挑戰(zhàn),Safari瀏覽器的搜索量(默認(rèn)引擎是谷歌搜索)出現(xiàn)2022年以來首次下降。
另一方面,AI初創(chuàng)公司開始對瀏覽器虎視眈眈,Chrome也在被重新審視。Perplexity即將發(fā)布瀏覽器,名字都起好了。而OpenAI也有類似傳言,并直言有興趣收購Chrome。
谷歌對搜索和瀏覽器的進(jìn)一步升級,在表明其“繼續(xù)偉大”的決心。
當(dāng)然,本次谷歌I/O大會主題演講的亮點(diǎn)不止于此,還有安卓XR平臺最新進(jìn)展、3D視頻聊天項(xiàng)目升級、文生圖工具Imagen和文生視頻工具Veo升級、AI電影制作應(yīng)用推出、Project Astra更加主動等等。
谷歌幾乎要把所有東西用AI重做一遍了。
一、谷歌搜索的“AI模式”與Chrome的Gemini
在去年的I/O大會上,谷歌推出了搜索中的“AI摘要”功能。
簡而言之,就是搜索的時候,在最上部會形成一個AI生成的摘要,幫助用戶進(jìn)行總結(jié)(百度也有類似的功能)。AI摘要推出后,也出了一些岔子,比如老生常談的幻覺問題。
如今,谷歌更進(jìn)一步,宣布要為搜索添加“AI模式”。
“AI模式”的入口將與“全部”“圖像”“咨詢”等并列,且位于首位,在搜索框下部顯示。
在AI模式下,用戶用自然語言給出搜索請求,模型直接生成總結(jié)式的回答,以圖文形式展示,并在右邊給出相關(guān)網(wǎng)頁。
AI 模式使用谷歌的前沿模型,并利用了該公司所謂的“查詢扇出”技術(shù)。谷歌表示,該方法將用戶的查詢分解為更小的子主題,同時運(yùn)行多個單獨(dú)的搜索。谷歌解釋說,這使得 AI 模式能夠執(zhí)行比傳統(tǒng)谷歌搜索更深入的搜索。
不難看出,使用體驗(yàn)和任何主流AI應(yīng)用的搜索模式并無二致。但這對谷歌來說是一大步,既是對Perplexity、ChatGPT等挑戰(zhàn)者的回應(yīng),也是對自身長久以來關(guān)鍵詞-網(wǎng)頁結(jié)果的搜索邏輯的一種內(nèi)部顛覆。
另一項(xiàng)重大改變,是Gemini AI助手將被接入Chrome瀏覽器。
在 Chrome 瀏覽器中,你會在右上角看到一個閃閃發(fā)光的小圖標(biāo)。點(diǎn)擊它,Gemini 聊天機(jī)器人窗口就會打開——它是一個浮動的 UI,你可以移動它并調(diào)整其大小。在那里,你可以詢問關(guān)于網(wǎng)站的問題。
最初,用戶可以在瀏覽各個標(biāo)簽頁時使用 Gemini 進(jìn)行對話。但“今年晚些時候”,Chrome 中的 Gemini 將允許用戶一次選擇多個標(biāo)簽頁,并針對所有標(biāo)簽頁提出問題。
進(jìn)一步地,谷歌未來會讓Gemini可以不僅僅是為你總結(jié)和答疑,也能直接代勞幫你瀏覽網(wǎng)頁。在某個演示中,在 Chrome 瀏覽器中打開 Gemini Live,幫助瀏覽一個食譜網(wǎng)站。用戶要求 Gemini 滾動到配料部分,AI 便會快速跳轉(zhuǎn)到該部分。用戶請求 Gemini 幫助將所需的糖量從杯轉(zhuǎn)換為克時,Gemini 也做出了響應(yīng)。
沒錯,未來的想象空間依然是留給AI Agent的。
二、谷歌助手走開,Gemini助手上位
最近風(fēng)很大的Agent,谷歌自然也不會缺席。從谷歌對Gemini助手的野望當(dāng)中就可以看到端倪。
先梳理一下關(guān)系:谷歌從很早以前開始就有一個助手應(yīng)用,叫谷歌助手(Google Assistant),但是如今Gemini應(yīng)用正在擔(dān)負(fù)起未來真正“超級助手”的期待。
其中Gemini Live是“助手”這一角色的絕佳體現(xiàn)。
在這個功能之下,用戶不用費(fèi)勁去描述自己看到的,或者發(fā)送圖片等素材,讓AI去分析,而是可以直接讓AI“看到”屏幕上的內(nèi)容或者是通過攝像頭讓AI“看到”周遭的事物。然后,AI就可以像一個真正的小幫手一樣,為你排憂解難。
Gemini Live具有攝像頭和屏幕共享功能,現(xiàn)在可在 Android 和 iOS 上免費(fèi)供所有人使用,因此用戶可以將手機(jī)對準(zhǔn)任何物體并通過語音進(jìn)行交談。
在I/O開發(fā)者大會上,谷歌宣布將其Frontier Gemini 2.5 Pro模型擴(kuò)展為“世界模型”,這意味著它將能夠理解所見事物,并據(jù)谷歌稱制定計(jì)劃。用人工智能的術(shù)語來說,它正在變得更加具有代理性。
谷歌DeepMind首席執(zhí)行官Demis Hassabis表示,這些更新是構(gòu)建“通用AI助手”的“關(guān)鍵步驟”,可以更好地理解用戶并代表他們采取行動。
未來還會有什么新進(jìn)展?Gemini Live是對谷歌早先啟動的項(xiàng)目Project Astra的延伸,一個利用視覺感知周圍世界的AI代理。值得一提的是,本次I/O大會上,能看到Project Astra變得更加“主動”。
在可以利用手機(jī)攝像頭“觀察”你周圍物體的基礎(chǔ)上,它可以讓它代替你完成任務(wù),即使你沒有明確要求它這樣做。比如它可以根據(jù)它所看到的內(nèi)容選擇說話,比如指出你作業(yè)中的錯誤。
谷歌勾勒的“通用AI助手”頗為誘人,一個可以隨處陪伴你的助手——無論是在你的手機(jī)里,還是在一副增強(qiáng)現(xiàn)實(shí)眼鏡里——它能夠在幾秒鐘內(nèi)感知世界、回答問題并向你傳遞信息。
三、Gemini其實(shí)是個藝術(shù)家
創(chuàng)意專業(yè)人士和程序員請注意:谷歌對其創(chuàng)意工具的增強(qiáng)要么會讓你的工作更輕松、更高效,要么會讓你變得過時。
值得關(guān)注的有兩個迭代和兩個新產(chǎn)品。
首先說迭代。
在本次I/O大會上,谷歌對圖像生成模型和視頻生成模型都進(jìn)行了迭代,分別推出了Imagen 4和Veo 3。
Imagen 4能夠渲染織物、水滴和動物毛發(fā)等“精細(xì)細(xì)節(jié)”。該模型既能處理照片級寫實(shí)風(fēng)格,也能處理抽象風(fēng)格,能夠創(chuàng)建各種寬高比、分辨率高達(dá) 2K 的圖像。谷歌實(shí)驗(yàn)室負(fù)責(zé)人 Josh Woodward 在新聞發(fā)布會上表示:“我們還投入了大量精力,并針對其生成文本和地形的方式進(jìn)行了改進(jìn),因此它非常適合制作幻燈片、邀請函,或者任何其他需要融合圖像和文字的內(nèi)容。”
從ChatGPT內(nèi)置的熱門功能到Midjourney V7,市面上的AI圖像工具琳瑯滿目,Imagen 4的競爭力是什么?除了前述特長,谷歌還指出,Imagen 4 速度很快——比 Imagen 3 還要快。而且它很快就會變得更快。在不久的將來,谷歌計(jì)劃發(fā)布 Imagen 4 的一個變體,其速度將比 Imagen 3快10 倍。
Veo 3,毋庸置疑,是OpenAI Sora的競品。這次,谷歌也在差異化優(yōu)勢上下了功夫。
那就是——Veo 3的視頻+音頻輸出,可以生成帶有聲音的視頻。例如,它可以創(chuàng)建帶有鳥鳴音頻的鳥類視頻,或者創(chuàng)建帶有交通噪音的城市街道視頻,也可以在視頻中融入角色對話。
這并不是一個可以自動給生成的視頻“配音”的工具,但是谷歌對其好用程度很有信心。谷歌表示,Veo 3 在真實(shí)世界物理和唇形同步方面也表現(xiàn)出色。
再說新產(chǎn)品。
谷歌推出了一款全新產(chǎn)品Flow,定義其為“AI電影制作工具”。
Flow將Veo、Imagen和Gemini整合在一起,打造電影級的剪輯和場景。用戶可以用自然語言描述他們想要的最終輸出效果,F(xiàn)low會立即為他們制作。
具體點(diǎn)來說,使用Flow,用戶可以使用文本轉(zhuǎn)視頻提示和素材轉(zhuǎn)視頻提示等功能(基本上,分享幾張圖片,F(xiàn)low可以結(jié)合提示來使用它們,幫助模型了解您想要的內(nèi)容),來制作時長8秒的AI生成短片。然后,用戶還可以使用Flow的場景構(gòu)建工具將多個短片拼接在一起。
谷歌在官方博文中提供了幾個利用Flow制作的“電影”案例,時長數(shù)分鐘,其中的人物、背景、質(zhì)感都相當(dāng)穩(wěn)定。
接下來的這個新產(chǎn)品就和影音無關(guān)了,谷歌推出了一個“異步編碼代理”Jules,旨在讓你把餐巾紙上潦草寫下的粗略設(shè)計(jì)變成完整的代碼或圖形設(shè)計(jì),同時向你展示它在此過程中所做的工作。
四、XR眼鏡怎么能少了谷歌?
另外一個I/O大會主題演講中不能忽視的亮點(diǎn),是安卓XR(Android XR)的最新進(jìn)展。
該系統(tǒng)去年12月發(fā)布,專為 XR 頭顯、智能眼鏡等擴(kuò)展現(xiàn)實(shí)設(shè)備設(shè)計(jì),通過與AI深度整合實(shí)現(xiàn)“無接觸輔助”功能。
谷歌盯上XR生態(tài)并不令人意外。谷歌的安卓系統(tǒng)是智能手機(jī)時代最重要的底層操作系統(tǒng)之一,而XR設(shè)備被視為是下一代智能終端的潛力股。此前Meta就一度想要開發(fā)XR操作系統(tǒng),做XR時代的“安卓”(但是沒能成功)。
谷歌希望在增強(qiáng)現(xiàn)實(shí)、混合現(xiàn)實(shí)和虛擬現(xiàn)實(shí)領(lǐng)域?qū)崿F(xiàn) Android 在智能手機(jī)領(lǐng)域所取得的成就。
這次,谷歌宣布將與 Gentle Monster、Warby Parker 等眼鏡品牌攜手,推出更多具備時尚設(shè)計(jì)感的智能眼鏡產(chǎn)品。與此同時,谷歌也將與開云眼鏡等更多合作伙伴展開聯(lián)動。為進(jìn)一步推動技術(shù)生態(tài),谷歌還將深化與三星的合作,聯(lián)合打造專為眼鏡類設(shè)備設(shè)計(jì)的軟硬件參考平臺,預(yù)計(jì)開發(fā)者將在今年晚些時候獲得適配支持。
值得一提的是,在大會上,中國科技公司Xreal 發(fā)布了 Project Aura,這是搭載 Android XR 平臺的第二款官方設(shè)備。谷歌和 Xreal 計(jì)劃在 2025 年 6 月的增強(qiáng)現(xiàn)實(shí)世界博覽會(AWE)上公布更多關(guān)于 Project Aura 的消息。
本文來自微信公眾號:直面AI,作者:小金牙,編輯:肖陽
本內(nèi)容為作者獨(dú)立觀點(diǎn),不代表虎嗅立場。未經(jīng)允許不得轉(zhuǎn)載,授權(quán)事宜請聯(lián)系 hezuo@huxiu.com
本文來自虎嗅,原文鏈接:https://www.huxiu.com/article/4373994.html?f=wyxwapp
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.