人工智能寶可夢終于實現了!谷歌Gemini 2.5 Pro 模型,剛剛成功通關了經典游戲《寶可夢:藍》
谷歌CEO桑達爾·皮查伊 (Sundar Pichai) 和 DeepMind 負責人戴密斯·哈薩比斯 (Demis Hassabis) 都發文祝賀,感謝了運行這個直播實驗的工程師 Joel Z
這事兒怎么來的?
首先得介紹下 Joel Z,他是一位30歲的軟件工程師,跟谷歌沒直接關系。他搞這個實驗,是因為 Gemini 2.5 Pro 出了個實驗版,大家就好奇它玩游戲怎么樣。于是,就有了這個 "Gemini Plays Pokémon" 直播
這個項目受到了另一個類似項目 "ClaudePlaysPokemon" 的啟發。不過 Joel Z 選擇了《寶可夢:藍》,一是因為 Claude 已經在玩《紅》了,二是因為《藍》是他自己玩的第一款寶可夢
Gemini 是怎么玩游戲的?
這才是重點。這個項目不是簡單地讓 AI 瞎點,而是構建了一套自主決策系統:
連接游戲:代碼通過 Socket 連接到 mGBA 模擬器,能實時截圖、發送按鍵指令(A、B、上、下等),還能讀取游戲內存數據,比如玩家位置、寶可夢狀態、地圖信息等
AI 決策:系統把帶網格線的游戲截圖,加上從內存提取的游戲狀態信息,發給 Gemini 2.5 Pro。Gemini 分析這些信息,決定下一步操作
專業“外援”:有時候,Gemini 會把特定任務交給專門的“智能體”(Agent)來處理,以提高效率和可靠性
執行與循環:系統解析 AI 的指令,轉換成具體的按鍵,發送給模擬器,等游戲畫面更新,然后重復這個過程
它和 Claude 玩寶可夢有啥不同?
Joel Z 特別強調,不要把這看作是 LLM 玩寶可夢的基準測試。兩者有很多不同:
導航方式:Claude 有個自動導航工具。Gemini 沒有,它需要自主決定目的地,然后要么自己規劃路線,要么調用一個路徑規劃智能體(Pathfinder Agent,其實是另一個 Gemini 實例)來尋找最優路徑。這個智能體能獨立思考,甚至用 BFS(廣度優先搜索)這類算法來規劃
信息獲取:兩者接收到的游戲信息和使用的工具不同
思維模式:每個模型思考方式不同,各有擅長
所以,別直接比較誰“更強”,不如都看看,感受下不同 AI 的“思路”。Joel Z 也坦言,他覺得 Claude 的框架有些不足,想看看給 Gemini 配上合適的工具后能走多遠
關于“作弊”的討論
直播過程中,有觀眾注意到 Joel Z 會進行一些干預,還有那個小地圖,這算不算“作弊”?
開發者干預:Joel Z 解釋說,這不是作弊。項目還在開發階段,他的干預是為了改進 Gemini 的通用決策和推理能力,而不是給具體關卡的提示(比如沒告訴它怎么過月見山)。唯一接近“提示”的是,告知 Gemini 需要和某個火箭隊員對話兩次才能拿到電梯鑰匙,這其實是原版游戲的一個小“坑”,在后續版本修復了。他提到,Claude 項目在直播前也做過類似的幕后優化,Gemini 只是把這個開發過程公開了
小地圖:游戲界面上方那個小地圖,是 Gemini 探索區域的可視化。Gemini 本身看不到圖像,只接收文本形式的地圖信息。Joel Z 認為,人類玩游戲會自然形成心理地圖,目前的 LLM 還做不到,小地圖是為了彌補這個能力缺陷,并非作弊
限制 Escape Rope / Dig:Gemini 只有在低血量且沒有治療道具時才能使用“穿洞繩”或“挖洞”。這是因為 LLM 還不太擅長判斷自己是真卡關了,還是暫時迷路。這個限制強制 Gemini 更多依賴地圖記憶和路徑規劃**,能更清晰地展示其推理過程,避免一遇到困難就“抄近道”
特色“智能體”
除了核心的 Gemini 模型,系統還引入了兩個專門的 LLM 智能體:
1.路徑規劃智能體 (Pathfinder Agent):如前所述,負責復雜區域(如火箭隊基地的旋轉地板迷宮)和一般場景的尋路
2.推箱子策略師 (Boulder Puzzle Strategist, BPS):專門為“冠軍之路”的推箱子謎題設計。它能模擬推箱子的序列,找出有效的解法,提高了 Gemini 應對這類挑戰的可靠性
內存管理
為了控制輸入給模型的 Token 數量,系統大約每 100 次操作就會對消息進行一次總結,用總結替換掉原始消息。
未來計劃(暫定)
Joel Z 的想法還包括:
? 改進內存管理機制
? 讓 Gemini 能記筆記,記錄重要信息
? 給 Gemini 提供更豐富的游戲狀態信息(進行中)
? 探索讓觀眾在不劇透的前提下與 Gemini 互動的方式
? 等框架穩定后,進行一次完全無干預的通關嘗試
? 嘗試用其他 LLM(如 Claude 或 o3)進行對比實驗
參考:
https://www.twitch.tv/gemini_plays_pokemon
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.