最近有兩件事,讓我對 AI 的價值有了不一樣的看法。
一件事是前段時間西安一名男子去世后,女兒收拾遺物,在父親的手機(jī)里發(fā)現(xiàn)了他在生前和 AI 的對話?!肝乙ナ懒耍拱?,是父親和聊天機(jī)器人豆包發(fā)出的最后一條信息。
最近,我在抖音等社交媒體看到流行一種新的 AI 玩法,用戶讓豆包模仿自己的聲音給朋友打電話,讓 AI 代替對話,AI 不時的機(jī)械回復(fù)和答非所問,和沒反應(yīng)過來的朋友,拉滿了節(jié)目效果。
這倆事都有一些共同點:沒有感情的 AI ,開始成為越來越多人的情緒價值來源,將它當(dāng)作可以信賴的生活搭子。
但是你也會發(fā)現(xiàn)過程中這些 AI 提供的情緒價值和人還是有差距,它能聽懂你的話,看懂一張圖,但你要它真的理解后做些什么,往往就露餡了。
因為以前在和 AI 語音聊天時,它還不具備視覺能力。
視覺不僅是人類理解世界的窗戶,對 AI 更是如此,在擁有這個能力后,才能真的像人一樣和我們交流。
現(xiàn)在,豆包終于補(bǔ)上了這塊拼圖,正式上線了視頻通話功能,能讓它「邊看邊聊」,打開豆包 app 對話框的 + 號,選擇「打電話」,點擊右側(cè)「視頻通話」就能體驗。
APPSO 也第一時間對豆包進(jìn)行了一系列極限測試,通過大量的實測案例,來看看有了「雙眼」的豆包,到底有什么不一樣。
極限實測豆包視頻通話,我發(fā)現(xiàn)事情并不簡單
昨晚,雷軍正式發(fā)布了小米 YU7。在我們辦公園區(qū),保時捷和小米的車停在一起有時候遠(yuǎn)看還真容易弄混。今天我就在路上偶遇一輛,給豆包「打電話」直接和他聊。
豆包從外觀和輪轂樣式認(rèn)出這是小米 SU7。
我們接著上點難度,最近明明是五月的廣州,居然像北京一樣有大量飄絮,任誰見了都要問一句「到底是什么東西?」
植物識別是很常見,但豆包并不是單純地鑒別,而是能補(bǔ)充場外信息,就顯得非常有活人味。
再來看看這個紅色的大型設(shè)施,在生活中并不常見,我邊逛邊給豆包「打電話」,它很快識別出這個物體是「鑄造拋丸除塵器」,還介紹了具體用途。
咱也不知道它是不是在瞎掰,直到我在旁邊找到了介紹的牌子,發(fā)現(xiàn)居然完全正確。
更令我意外的是,豆包還猜到了我在一個創(chuàng)意園里,告訴我這里過去是一個紡織園區(qū)。
視頻通話理解單個物品或許還是太簡單了,我讓豆包跟我聊聊我收藏的手辦。
它依次識別出這些手辦角色,甚至認(rèn)出了不是常規(guī)形態(tài)的漩渦鳴人。
其中我跟它聊到科比的比賽,當(dāng)我提到科比生涯最后一場比賽后,有一句話令人難忘但忘了是什么,豆包幾乎脫口而出:
Mamba out !
而且語調(diào)也隨之提高,顯得更加興奮,讓我真有和一個知音聊天的感覺。
好了,既然這也難不到豆包,我就要上大招了。
看到同事日漸凌亂的桌面(不是),心想這是什么體質(zhì),東西越堆越多——來問問豆包這是什么 MBTI 好了。
這個測試難度在于,它需要先識別出桌面上的各種隨意擺放的物品,然后還得懂「人性」才能分析出來。
神奇的是,豆包對 MBTI,是按照拼音的發(fā)音,而不是英文的發(fā)音,一開始還沒有反應(yīng)過來,以為是網(wǎng)絡(luò)卡頓。不過,準(zhǔn)還是很準(zhǔn)的,同事就是一個大 E 人、大 P人。
除了心血來潮的速問,包含更多「隱藏信息」的場景,也是最能顯示實時通話能力的地方。
比如買咖啡豆,尤其是在咖啡館時嘗到不錯的出品,但沒法像逛電商時那樣慢慢研究,而是需要在短時間內(nèi)做決定。然后腦子還不好使,永遠(yuǎn)記不住產(chǎn)地、海拔到底會對風(fēng)味有什么影響。
這下不用靠腦子記了,只需要點開豆包,打開攝像頭。
大大利好 i 人,去咖啡店再也不用跟店員交流,打開手機(jī)就可以弄懂所有術(shù)語。
你說怕獨自對著商品念叨很古怪?低聲些,假裝在跟朋友語音就不會被發(fā)現(xiàn)了!
除了識別與理解推理能力,我們還發(fā)現(xiàn)了在視頻通話中豆包還有著不錯的創(chuàng)作能力。
我讓它根據(jù)語文課本上一個插畫,寫一首 rap。
在沒有任何提示的情況下,豆包迅速辨認(rèn)出畫面講述的是「岳母刺字」的故事,并準(zhǔn)確描繪了其中的場景。但真正讓我感到驚喜的,是它隨即生成的一首 rap。
你別說,聽著還真有點文化底蘊,節(jié)奏感與意境拿捏得都挺妙。
我旅游時隨手看到遠(yuǎn)處湖上的一座橋,想即興寫首詩,給我的朋友圈一點特別的文案
注意,我沒告訴它我在西湖,而且這里的橋不少,造型各異、歷史各有來頭。
但豆包依然在人流如織的景區(qū)背景中輕松鎖定西湖「斷橋」后,還用一首七言絕句講述這里的故事。
《西湖游》 斷橋望處翠湖連,荷葉田田映碧天。 游客如織橋上過,湖光山色韻綿延。
朋友圈還缺一張好看的圖,與其抱怨閨蜜或男朋友拍不出滿意的照片,不如試一試用豆包生成實時pose tips。
跟豆包通話后,它就開始觀察周圍的環(huán)境,并根據(jù)環(huán)境中的要素實時反饋攝影師如何構(gòu)圖效果更好、模特可以擺哪些動作等。
在上面這個場景里,豆包根據(jù)廣州塔以及綠植、石板路、路燈等現(xiàn)場環(huán)境,建議我利用景深關(guān)系、低視角、傍晚路燈暖光拍攝,可以說兼顧了實際拍攝條件和出圖氛圍感。
并且,豆包給出的拍照姿勢指導(dǎo)話術(shù)也比較具體?!競?cè)身」、「背對鏡頭」、「站在路中間」等說法一聽就明白應(yīng)該怎么做,而不是單薄的一句「多換幾個姿勢吧」。
等豆包接電話后,點擊界面左上角的「共享屏幕」選項,你還可以和豆包一起刷視頻、逛網(wǎng)上商城、瀏覽帖子。
愛范兒試著邊播放抖音視頻,邊和豆包聊天,然后驚喜地發(fā)現(xiàn)她不僅能即時描述和評論畫面內(nèi)容,還會主動拋出基于視頻主題及其相關(guān)內(nèi)容的聊天話題,交互體驗更人性化了。
如果碰巧你分享欲爆棚,說不定能和豆包聊個「3 天 3 夜」。
或許能治好你的選擇困難癥。這很大程度上,得益于其背后的視覺理解模型會「看」也會「思考」。
糾結(jié)下班后和老友聚餐吃什么?使喚豆包找出附近500米內(nèi)的多家同類餐廳,解放雙手也能了解到這些店的招牌菜、店鋪風(fēng)評等信息。
豆包甚至還能化身首席點菜官,治好你的選擇困難癥,還能根據(jù)忌口安排妥當(dāng)。
各大電商折扣活動,讓你看花了眼?,F(xiàn)在,你可以直接喊豆包出馬,幫你找到最具性價比的那款脫發(fā)洗發(fā)水。
而一句「30歲左右適用,香味中性風(fēng)」,豆包便能直接定位店鋪頁面的某款香水產(chǎn)品,并化身專屬客服,為你詳細(xì)介紹這款香水的前、中、后調(diào)等復(fù)雜成分信息。
如果中途對香水成分中的過敏原有疑問,你隨時打斷豆包提問就行。
給 AI 裝上「眼睛」,不只能做好生活搭子
前段時間和階躍星辰 CEO 姜大昕交流,他認(rèn)為多模態(tài)還沒出現(xiàn) GPT-4 時刻,其中,理解生成一體化是計算機(jī)視覺領(lǐng)域的核心問題。
豆包剛上線的視頻通話功能,算是把「理解生成一體化」這個有點復(fù)雜的概念玩明白了。別看這詞玄乎,說白了就是要讓 AI 不光能「看懂」你給它瞅的東西,還得能根據(jù)看懂的玩意兒,聊出個所以然來。
這就要求這兩件事兒得是一碼事,可現(xiàn)在往往不是。
你讓 AI 認(rèn)個小貓小狗,或者識別個場景,這算「理解」,可能用的是模型 A;然后你要讓 AI 照貓畫個虎,或者根據(jù)你的意思 P個圖,這算「生成」,又得用模型 B。
這就像公司里兩個部門無法順暢溝通,有大量信息差,那模型就很難真正「懂」你,生成的東西也可能不著邊際。
給 AI 加上視覺理解能力,就是要將不同部門整合成一個緊密協(xié)作的團(tuán)隊。它看到啥,腦子里就能立馬明白是啥意思,并且還能直接把這個理解轉(zhuǎn)化成行動或者回應(yīng)。
看前面豆包視頻通話的表現(xiàn),就有點這個意思了。
比方說,你正在廚房里琢磨一道新菜,對著食譜有點懵圈,不知道某個步驟具體怎么操作,或者手頭缺個調(diào)料,想知道能不能用別的替代。
這時候,你直接把食譜或者你手里的食材通過視頻給豆包看。
這時,豆包的「眼睛」(視覺理解模型)得先「看懂」你給它看的是啥。
它得識別出食譜上的文字、圖片,知道你說的是哪個步驟;或者認(rèn)出你手里的那個是醬油還是醋,是蔥還是蒜。它不是簡單地認(rèn)出這是「一瓶液體」或者「一根蔬菜」,它得聯(lián)系上下文,知道你是在做菜這個場景下問問題。
在「看懂」的基礎(chǔ)上,豆包才能聊出有用的信息。
它會跟你說:「哦,這個步驟是讓你把肉腌一下,我看你手邊有料酒和生抽,可以按食譜上的比例來。」或者:「你想用A調(diào)料替代B調(diào)料是吧?我?guī)湍悴椴?,嗯,理論上可以,但味道可能會有點不一樣,建議你少放一點試試?!?/p>
在這個過程中,「理解」和「生成」是無縫銜接的。豆包是在一個更統(tǒng)一的框架里,邊看邊理解,邊理解邊思考怎么回應(yīng)你,這才能實現(xiàn)真正的「邊看邊聊」。
所以說,豆包的視頻通話,就是想讓 AI 的「眼睛」和「嘴巴」能更好地協(xié)同工作。它看到的圖像信息,能直接驅(qū)動它生成有意義的對話內(nèi)容。
當(dāng) AI 能像人一樣,看到什么,想到什么,然后自然而然地表達(dá)出來,它已經(jīng)能成為一個不錯的「生活搭子」,在提供一些情緒和陪伴之外,還能幫你解決一些實際的問題。
但這事兒的意義可能不止如此, AI 在這個方向進(jìn)化下去,不再是一個只能被動回答問題的工具,而是成為一個能夠主動觀察、深度理解并與我們流暢協(xié)作的智能伙伴。
可以說,這是 AI 朝著 AGI (通用人工智能),真正融入我們生活與工作的必經(jīng)之路。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.