原標(biāo)題:AI“偏科”改善意味著什么
6位清華姚班學(xué)生與AI比賽做高考數(shù)學(xué)、物理壓軸題,姚班學(xué)生10分鐘內(nèi)完成作答,1位同學(xué)做錯(cuò)了題目,AI則在輸入確認(rèn)后幾秒就開始輸出步驟,并答對(duì)了題目——最近,企業(yè)發(fā)布的一個(gè)視頻讓不少人大吃一驚。
猶記得去年7月,一道小學(xué)生難度的數(shù)學(xué)題“9.11和9.9哪個(gè)大”,難倒了一眾海內(nèi)外AI大模型。不少評(píng)測機(jī)構(gòu)把高考題拿給大模型做,也發(fā)現(xiàn)大模型更擅長回答文科試題,而不太擅長回答數(shù)學(xué)、物理等理科題目,于是有了一個(gè)形象的說法:大模型更像文科生而不是理科生。
AI“偏科”,一方面與大模型的架構(gòu)和運(yùn)行機(jī)制有關(guān),大模型的解答方式本質(zhì)上是“預(yù)測下一個(gè)詞”,即通過當(dāng)前輸入的文本預(yù)測下一個(gè)詞出現(xiàn)的概率來進(jìn)行訓(xùn)練和回答。文科推理預(yù)測有一兩處錯(cuò)誤,不影響長文本理解;理科推理則更考察因果性而非相關(guān)性,“比如一道數(shù)學(xué)題包含5步推理和5步計(jì)算,假設(shè)大語言模型每一步預(yù)測準(zhǔn)確的概率都有90%,綜合下來的準(zhǔn)確率就只有35%”。另一方面,文科語料數(shù)據(jù)豐富多樣,有利于訓(xùn)練大模型,理科語料主要是數(shù)字和符號(hào),形式單一,數(shù)據(jù)資源少,不利于訓(xùn)練大模型。
通過“偏科”背后的運(yùn)行機(jī)制,不難看出,大模型的數(shù)理能力之所以重要,甚至被認(rèn)為是大模型“智力的直接體現(xiàn)”“實(shí)力的重要分水嶺”,正因?yàn)樗P(guān)系到落地應(yīng)用時(shí)的可靠性和準(zhǔn)確性。例如,在聊天場景下,智能客服一本正經(jīng)地胡說八道,影響不大;而在金融、工業(yè)場景下,即便是一個(gè)數(shù)字出錯(cuò),后果可能都讓人吃不消。隨著“人工智能+”持續(xù)推進(jìn),大模型加速賦能千行百業(yè)成為行業(yè)共識(shí)與競爭焦點(diǎn),改善AI“偏科”,擴(kuò)展應(yīng)用場景,就成了必答題。
綜合比較不同機(jī)構(gòu)在不同時(shí)期的評(píng)測,絕大多數(shù)大模型的數(shù)理能力在提高,有的還能達(dá)到“博士”“清北”水平,速度之快讓人驚嘆。當(dāng)然,正如專家所說,在真實(shí)業(yè)務(wù)場景中,AI要處理的信息遠(yuǎn)不止于語言,而是多模態(tài)數(shù)據(jù)的融合,隨著多模態(tài)技術(shù)的發(fā)展,AI將從語言模型演進(jìn)為推理模型,最終發(fā)展為世界模型,“在推理與理解能力提升的基礎(chǔ)上,下一步的關(guān)鍵方向是智能體”。唯有具備完整決策與執(zhí)行能力的AI智能體,才能真正實(shí)現(xiàn)商業(yè)價(jià)值的閉環(huán)。
去年,第一個(gè)具有“專家級(jí)數(shù)理能力”的大模型出現(xiàn)時(shí),就有人擔(dān)憂,人工智能的發(fā)展速度超過了人類對(duì)其認(rèn)知的速度,人工智能治理將是一個(gè)巨大挑戰(zhàn)。有學(xué)者就提到,“人類用了大概300萬年才發(fā)展到現(xiàn)在的智力水平,現(xiàn)在的大模型幾個(gè)月就從IQ 80飆升到130了,未來還會(huì)繼續(xù)提升。這對(duì)教育意味著什么?”如今,大模型迭代速度越來越快,性能越來越強(qiáng)大,有望在數(shù)理能力等方方面面逼近甚至超過人類平均水平,除了要思考AI治理問題,人機(jī)共生時(shí)代,回答好如何實(shí)現(xiàn)AI與人類優(yōu)勢互補(bǔ)問題,也迫在眉睫。(維辰)
來源:南方日?qǐng)?bào)
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.