在ICLR 2025大會上,韓國基礎科學研究院(IBS)聯合延世大學團隊推出革命性Lp-卷積方法。
由基礎科學研究院(IBS)、延世大學和馬克斯·普朗克研究所組成的國際科研團隊,近日開發出一項突破性人工智能技術,使機器視覺首次逼近人腦處理視覺信息的方式。這項名為Lp-卷積的創新方法,在提升圖像識別系統精準度的同時,大幅降低了傳統AI模型的計算需求。
突破CNN與生物視覺的鴻溝
人腦具有在復雜視覺場景中快速捕捉關鍵特征的超凡能力,這一直是傳統AI系統難以企及的。當前主流的卷積神經網絡(CNN)采用固定尺寸的方形濾波器分析圖像,雖然在基礎任務中表現尚可,但其檢測碎片化數據中廣泛模式的能力存在本質局限。
近年來興起的視覺轉換器(ViT)通過全局圖像分析在性能上超越了CNN,但代價是需要消耗海量計算資源和訓練數據,實際應用成本居高不下。受大腦視覺皮層通過圓形稀疏連接選擇性處理信息的啟發,研究團隊試圖尋找第三條道路:仿腦機制能否讓CNN兼顧高效與強大?
Lp-卷積:智能視覺新范式
為此,團隊開發出基于多元p廣義正態分布(MPND)的Lp-卷積技術。與傳統CNN的固定方形濾波器不同,這種新方法允許AI模型根據任務需求動態調整濾波器形態 —— 水平延展捕捉橫向特征,垂直擴展捕獲縱向模式,完美模擬人腦對關鍵細節的選擇性聚焦機制。
這項突破成功攻克了困擾AI領域多年的"大核難題"。傳統CNN單純擴大濾波器尺寸(如使用7×7或更大核)往往收效甚微,而Lp-卷積通過引入仿生柔性連接模式,在不增加參數量的情況下顯著提升了模型性能。
實測表現:更智能、更魯棒、更高效
在CIFAR-100、TinyImageNet等標準數據集測試中,Lp-卷積不僅讓AlexNet等經典模型煥發新生,更使RepLKNet等現代架構的準確率實現跨越式提升。面對現實應用中常見的噪聲數據,該方法展現出驚人的魯棒性 —— 這正是當前AI落地應用的關鍵瓶頸。
更令人振奮的是,當Lp-掩模呈現高斯分布特征時,AI的內部處理模式與小鼠腦神經活動高度吻合。"人類能在復雜場景中瞬間鎖定關鍵要素,"基礎科學研究院認知與社會性研究中心主任C. Justin LEE博士指出,"我們的Lp-卷積技術正是模擬了這種能力,使AI能像人腦一樣靈活聚焦圖像的核心特征。"
應用前景與行業變革
相較于依賴小型固定濾波器的傳統方案和資源消耗巨大的視覺轉換器,Lp-卷積開創了高效實用的第三條道路。這項突破性技術預計將在多個領域引發革命:
- 自動駕駛:實時精準識別道路障礙物
- 醫學影像:增強AI輔助診斷的細節解析能力
- 智能機器人:打造適應復雜環境的機器視覺系統
"這項研究在AI與神經科學的交叉領域樹立了新標桿,"C. Justin LEE主任強調,"通過讓AI更貼近生物大腦的工作原理,我們釋放了CNN的潛在能力,使其變得更智能、更靈活、更具生物合理性。"
研究團隊透露,下一步將深化該技術在復雜推理任務(如數獨求解)和實時圖像處理等領域的應用探索,持續推動仿腦智能技術的邊界。這項突破不僅為計算機視覺開辟了新紀元,更為理解人類認知機制提供了全新視角。
如果朋友們喜歡,敬請關注“知新了了”!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.