ARC-AGI測試是一項旨在衡量人工智能抽象和推理能力的基準測試,被認為是評估通用人工智能(AGI)進展的關鍵工具之一
o3 Pro 在 ARC-AGI 半私有最新評估結果性能表現
ARC-AGI-1:(難度相對小一點),正確率
* 低:44%,每任務 $1.64
* 中:57%,每任務 $3.18
* 高:59%,每項任務 4.16 美元
ARC-AGI-2:(全新基準,測試數據集難度很大)
* 所有推理工作:正確率都<5%,每項任務 4-7 美元
主要結論:
* o3-pro high性能竟然不如o3 high
* o3 和o3pro推理價格大幅降低,o3比GPT 4o還要便宜20%左右
從這個測試看o3 pro 可能被降智
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.