新瓜,主角是昨天剛剛發(fā)布的Meta旗艦大模型——Llama 4
內(nèi)部爆料:性能不達(dá)標(biāo),壓力下欲“優(yōu)化”結(jié)果?
首先引爆討論的是一篇來自“一畝三分地”論壇的帖子,發(fā)帖人自稱是參與Llama 4訓(xùn)練的內(nèi)部員工,并表示已因此辭職
帖子內(nèi)容信息量很大,主要說了幾點:
1.性能瓶頸:盡管團隊反復(fù)努力訓(xùn)練,Llama 4的內(nèi)部模型性能始終無法達(dá)到開源SOTA(State-of-the-Art,頂尖水平)基準(zhǔn),差距明顯。
2.“曲線救國”策略:公司領(lǐng)導(dǎo)層提出,在訓(xùn)練后期,將各種基準(zhǔn)測試的“測試集”數(shù)據(jù)混入訓(xùn)練或微調(diào)數(shù)據(jù)中。這樣做的目的很直接——在各項指標(biāo)上達(dá)成目標(biāo),交出一份“看起來很美”的成績單
3.Deadline壓力:這個“刷分”任務(wù)有明確的時間線——4月底。如果屆時無法達(dá)成目標(biāo),后果可能很嚴(yán)重
4.用戶反饋不佳:Llama 4發(fā)布后(帖子發(fā)布于模型剛發(fā)布時),X和Reddit上已有不少用戶反饋,實際測試效果非常糟糕
5.學(xué)術(shù)底線與辭職:發(fā)帖人表示,自己有學(xué)術(shù)背景,無法接受這種“為了達(dá)標(biāo)而污染測試數(shù)據(jù)”的做法,因此提交了辭職,并明確要求不要將自己的名字寫入Llama 4的技術(shù)報告
6.高管動向(帖中提及):帖子還提到,Meta的AI副總裁(VP of AI)也因類似原因辭職。( 博主注:此為帖子單方面說法,需注意辨別 )
這篇帖子迅速引發(fā)了圈內(nèi)關(guān)注,大家都在討論這種做法是否違背了AI研發(fā)的基本誠信
這是后續(xù),真實情況還有待于觀察
外部觀察:TechCrunch質(zhì)疑測試版本“誤導(dǎo)性”
無獨有偶,知名科技媒體TechCrunch也發(fā)文,標(biāo)題直指Meta新AI模型的性能測試“有點誤導(dǎo)人”。
TechCrunch的文章主要聚焦于Llama 4(即Maverick)在著名的人類評估排行榜LM Arena上的表現(xiàn)。Maverick確實取得了第二名的好成績,但這背后似乎另有隱情:
1.版本差異:Meta提交給LM Arena進行測試評估的Maverick版本,和公開發(fā)布給開發(fā)者使用的版本,可能不是同一個
2.官方標(biāo)注:Meta在發(fā)布公告和Llama官網(wǎng)上其實也提到了這一點。他們明確說明,用于LM Arena測試的是一個“實驗性的聊天版本”,或者標(biāo)注為“專門針對對話場景優(yōu)化的Llama 4 Maverick”
3.“為榜單優(yōu)化”的問題:TechCrunch指出,雖然LM Arena本身并非完美的評測工具,但過去AI公司通常不會(至少不公開承認(rèn))專門為了提升榜單排名而特供一個優(yōu)化版本。Meta這次的做法,相當(dāng)于針對基準(zhǔn)測試優(yōu)化了一個版本去打榜,卻給開發(fā)者提供了未經(jīng)特別優(yōu)化的“基礎(chǔ)版”
4.誤導(dǎo)開發(fā)者:這種操作會讓開發(fā)者難以根據(jù)榜單排名準(zhǔn)確預(yù)估模型在自己實際應(yīng)用場景中的真實表現(xiàn)?;鶞?zhǔn)測試雖然有局限,但本應(yīng)提供一個相對公平的參考
5.行為差異:X平臺上的研究人員也發(fā)現(xiàn),公開下載的Maverick版本,和在LM Arena上測試的版本行為確實不同。榜單上的那個版本更喜歡用表情符號(emoji),回答也明顯更啰嗦
號稱千萬上下文的召回率,上下文的實際表現(xiàn),遠(yuǎn)低于預(yù)期
Llama 4 Maverick 在 aider 多語言編碼基準(zhǔn)測試中得分為實測僅為 16%
?星標(biāo)AI寒武紀(jì),好內(nèi)容不錯過?
用你的贊和在看告訴我~
求贊
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.