多知12月16日消息,今天,Kimi 發布視覺思考模型 k1,可以拍照解題,并不僅僅給出答案,還會給出思索答案的全過程。該模型將于近期正式上線,包括Android版、iOS版以及網頁版。
根據Kimi介紹,k1 模型基于強化學習技術,支持端到端圖像理解和思維鏈技術,并將能力擴展到數學之外的更多基礎科學領域。在數學、物理、化學等基礎科學學科的基準能力測試中,初代 k1 模型的表現超過了全球標桿模型 OpenAI o1、GPT-4o以及 Claude 3.5 Sonnet。
Kimi介紹,k1 視覺思考模型,真正意義上實現了端到端的圖像理解和思考能力。模型可以直接處理用戶輸入的圖像信息并進行思考得出答案,不需要借助外部的OCR或額外視覺模型進行信息處理。
從模型訓練的角度看,k1 視覺思考模型的訓練分為兩個階段,先通過預訓練得到基礎模型,再在基礎模型上進行強化學習后訓練。k1 的基礎模型重點優化了字符識別能力,在 OCRBench 上得到 903 分的當前最好(state-of-the-art)結果,在 MathVista-testmini、MMMU-val 和 DocVQA 基準測試集上分數分別為 69.1、66.7 和 96.9,處于全球第一梯隊水平。
Kimi 解釋,這是因為k1 的強化學習后訓練在數據質量和學習效率方面做了進一步優化,在強化學習的規模化(scaling)上取得了新的突破。
為此,Kimi 模型研發團隊自主構建了一個標準化的測試集Science Vista,涵蓋不同難度的數理化圖片題目,且從分布上與實際用戶需求較為匹配。該測試集將開放給全行業。
Kimi 還坦言,k1 視覺思考模型存在的局限性,例如在分布外(out-of-distribution)的泛化、在更復雜問題上的成功率、在更多噪聲場景的準確率、多輪問答效果等方面,有很大提升空間。在一些場景和泛化能力上,k1 模型與 OpenAI 的 o1 系列模型相比仍有差距。
該模型有較強的數學能力,但由于主要支持LaTeX等格式的文本輸入,依賴圖形理解能力的部分幾何圖形題則難以應對。
新的 k1 視覺思考模型,借助端到端的圖像理解能力,解鎖了包括幾何圖形題在內更加全面的數學能力。在不同階段的幾何和圖形題專項基準能力測試中,k1-preview 成績追平或超過了 OpenAI 的 o1 模型。
比如k1 視覺思考模型解決這道幾何題:
??除了數學能力,k1視覺思考模型將能力擴展到了物理、化學等領域。Kimi表示,在基礎科學學科教育階段的物理和化學能力測試中,k1 模型的表現同樣不輸全球領先的玩家 OpenAI 和 Anthropic。
k1 視覺思考模型解答經典物理電路題的例子:
接下來,我們來看一個 k1 視覺思考模型化學領域技術原理的例子。我們將一張曾獲得諾貝爾化學獎的技術原理圖去掉大部分文字說明,只留下“QD”兩個字母,看 k1 是如何一步一步分析出原理圖是在講什么。
在真實場景下,用戶輸入給模型的圖像信息往往存在各種各樣的噪聲,包括照片灰暗、圖像模糊、多題一起拍、手寫字跡干擾、純手寫的題目、傾斜的拍攝角度等。
Kimi測試顯示,在“噪聲”場景下,多個基礎科學學科的基準測試數據顯示,k1 模型相比OpenAI 和 Anthropic 的視覺語言模型,有更顯著的領先優勢。其他大部分模型在視覺噪聲場景下,能力水平下降了一半多,k1 則依靠超強的視覺識別能力,保持了最低的能力損失幅度。
Kimi的工作人員在平板電腦上手動推演的公式:
k1 模型是可以一步一步分析出作者的意圖:
在學習了代數、幾何、物理、化學、生物等更多基礎科學的難題之后, k1 視覺思考模型同樣涌現出更多通用能力。
未來,用戶不僅遇到不懂的題目,可以隨手拍給 Kimi,而且在社交軟件上看到不認識的城市或建筑照片、不熟悉的熱帶水果、看不明白的草書毛筆字、看不懂的梗圖、看不懂的科學家手稿……都可以嘗試發給 Kimi 視覺思考版,Kimi可以給出自己的答案。
越來越多的通用大模型正在針對細分場景不斷微調,比如,更多功能適用于教育場景,如豆包有“拍題答疑”功能,而今,kimi也有了該功能,“不懂就拍”,這為學習者帶來了更多的選擇。
《教育科技這一年·2022》+《培訓行業這一年·2021》+《教育科技行業圖譜2022-2023》,重磅發售!套裝優惠價169元,閉眼入!迅速點擊文末“閱讀原文”購買,手慢無!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.