大香大香伊人在钱线久久,亚洲日韩欧美国产高清αv,日本强伦姧人妻久久影片,亚洲国产成人欧美在线观看

網易首頁 > 網易號 > 正文 申請入駐

三位頂流AI技術人罕見同臺,談了談AI行業最大的「羅生門」

0
分享至

文|周鑫雨

編輯|蘇建勛

預訓練還是不是王道?如今AI行業,這是最大的“羅生門”事件。

2023年,模型預訓練,還是第一性原理。然而,從OpenAI前首席科學家Ilya公開喊話“預訓練已走到盡頭”,到聚焦強化學習的DeepSeek R1出圈,又昭示著預訓練風光不再。

從人人追捧,到口碑滑坡,預訓練境遇的變化,是AI行業“共識”與“非共識”不斷流動的一個縮影。

針對AI技術的共識與非共識,2025年5月27日的“技術開放日”上,螞蟻集團攢了一個交流局。

圓桌對話的參與者,是當下最熱的創業者、技術高管和學者:

曹越,視頻模型公司Sand.AI創始人,前光年之外聯創。2024年7月完成兩輪融資后,公司估值已經超過1億美元;

林俊旸,阿里通義千問(Qwen)技術負責人。從2021年發布的M6,到2025年的Qwen3,他都是名副其實的模型一把手;

孔令鵬,香港大學助理教授、NLP LAB聯合主任。其牽頭研發的擴散推理模型Dream 7B,成為了開源擴散語言模型的新SOTA。


△圖源:作者拍攝

某種意義上,曹越和孔令鵬,都在探尋AI“非共識”的過程中收獲頗豐——他們都試圖將語言模型和視覺模型訓練的主流架構,分別應用到對方身上:

通過把多模態的主流架構Diffusion Model,運用在語言模型中,孔令鵬參與研發的Dream 7B,用僅7B的參數量,在多個任務上表現優于671B的DeepSeek V3。

反過來,曹越則將語言模型主流的自回歸(Auto Regressive)路線,運用到了視頻模型的訓練中,實現了生成視頻長度的無限擴展。

他們的經歷代表著如今AI行業最性感的一面:擁抱非共識,實現創新。

相對的,阿里給外界的印象,則是擁抱共識:長期以來,千問發布的都是Dense(稠密)模型,曾經的主流。直到2025年2月,團隊才推出了首個MoE模型。

作為負責人的林俊旸,也常常聽到外界批評的聲音:“千問是不是太保守了?”在圓桌上,他做出了澄清:“我們并不保守,只是做了一大堆實驗后失敗了。真是一個難過的事情。”

這也是AI行業的另一面:共識,往往代表著占多數的成功經驗。

2023年,阿里訓練千問大模型時,林俊旸形容,內部曾多次“魔改”Transformer架構。然而他們最終發現,Transformer還是最優解。

當然,三人都感受到的一個變化是:去年還在信仰強共識,今年大家都開始尋找非共識。

如今的行業,林俊旸打了個比方,大家都在不同的方向做探索,看誰能摸中彩票。“大家看似在相反的道路上,其實都不矛盾。”孔令鵬也有類似的觀點。

一個案例是,無論是像孔令鵬那樣,在語言模型的基礎上做Diffusion,還是像曹越那樣,在視頻模型上做自回歸,都是為了平衡Model Bias(模型偏差)和Data Bias(數據偏差),達到更好的效果。

以及,關于預訓練,近期在美國又涌現了新的非共識:預訓練還沒結束。當下林俊旸也是站在新非共識的一方。他透露:“我們還有好多數據沒放進(千問),放一次提升一次。”

以下是《智能涌現》對圓桌內容的整理,內容經過編輯:

千問并不保守,只是一大堆實驗都失敗了

螞蟻百靈大模型負責人周俊(花名:西亭):用擴散模型來做語言生成背后的思考是什么?

孔令鵬:在你不了解你的數據時,不要對數據做更多的假設,讓模型去接管更多的東西,這是我們將擴散模型用于語言模型訓練的原因。

有些數據是有從左往右的Bias(偏差,指輸出結果與真實結果的差別),比如3+3=6,不可能先有6,再去補前面的過程。另外一些數據,比如我開三個會,A會在B會后面,B會必須在中午,這就意味著數據不可能完全從左到右。

以Gemini Diffusion這樣的文本擴散模型為例,它是一個比從左往右學習的自回歸模型更少假設的模型,它可以雙向學習,也可以處理并行的任務。

西亭:請結合實踐,分享一下多模態領域主流架構面臨的技術挑戰。

曹越:語言和視頻在某種意義上還是比較像的,它們在時間維度上都有比較強的因果先驗,也就是時間上的因果關系。

去年年初發布的Sora,其實沒有這種先驗,生成的5秒視頻,是直接用一個模型來做建模。

我們自己的感受是,視頻時序的因果先驗還是很強的,人看視頻的時候是有順序的。為什么有順序?因為視頻信息的存儲方式是有順序的。

我們如果能夠設計出一種訓練方式,能夠編碼時間維度上的順序關系,我可能可以更大程度壓榨視頻中的信息,從而使得模型最終的天花板更高。

西亭:分享一下對Transformer架構認知的變化,以及你怎么看待Transformer目前面臨的挑戰。

林俊旸:我對Transformer感觸特別深,因為剛開始干這行沒多久,Transformer就來了。所以我個人還是比較感謝Transformer。

一路過來,我們嘗試去改很多東西,但是最終發現Transformer確實挺好用的。2022年的時候,大家都會去改一些細節,比如說對Transformer的激活函數做一些相應的改動。感受是,谷歌還是太強了,PaLM(谷歌基于Transformer訓練的模型)還是挺好使的。

尤其2023年,我們剛開始做千問,剛開始也挺掙扎。可能有一些同學用過我們早期的模型,花樣特別多,搞了半天發現,基礎模型結構還是不能亂動。所以我覺得這還是有一點玄學的。

大家對千問有一種批評,是說覺得我們相對比較保守。其實我們并不保守,做了一大堆的試驗都失敗了,這是一個難過的事情。

還有一件值得關注的事,MOE模型。我們2021年就在做MOE,當時是M6模型。當時發現MOE挺能Scale的,只是這個模型不強。

MOE還是值得走的,因為今天說白了,效果和效率,現在商業公司全都要。今天我們探索的架構,現在還沒有很好的結論,還在做試驗,可以看到優點和缺點。

但我覺得是挺好的方向,因為MOE確實有可能實現無限的上下文。但一些常見的長序列任務,比如一些常見的程序類的任務,比如抽取類的任務,有時還不如其他的方案。

所以,我們現在可能在做Transformer的同時,還會關注MOE。

當然,孔老師的方向,Diffusion LLM(擴散語言模型)我們也在關注,這是另外一條線。目前看起來,擴散語言模型在數學和代碼,以及推理類的任務上,表現確實挺好的。

這挺出乎意料,因為當年我們做自回歸的各種實驗的時候,相關的任務還挺失敗。但現在擴散模型的表現還挺好。但它的通用能力,現在還有比較大的提升空間。

我覺得大家都在不同的方向做探索,看誰能摸中彩票。

現在每一次下賭注,成本變得越來越高

西亭:當前業界聚焦什么樣的一些模型優化方法?你認為效率優化空間最大的方向可能有哪些?

林俊旸:大家都非常關注現在DeepSeek的每一步的動向。當時看到DeepSeek能把MOE的稀疏比(激活的專家數量與總專家數量的比值)做到這么大,還是挺驚喜的。

但其實我們也已經做到差不多的稀疏比。當時我們試驗模型的效率和效果,看看模型能不能在變大的同時保持效率。結果,1:20的稀疏比一般實驗效果比較好,但1:10是相對更加保守的選項。所以我們更多在這個區間里邊。

但DeepSeek可能做得更好一些,稀疏比能達到1:20+。

MOE值得進一步去探索,專家數越多,越稀疏,訓練的穩定性肯定變差。相應的,我們要針對訓練穩定性,去做相應的一些優化。

但針對模型結構,今天要更安全地進行考慮。模型架構有可能對預訓練非常友好,但對強化學習非常不友好,這會帶來很多困難。所以現在每一次下賭注,成本變得越來越高。

同時本身模型的結構也要提前考慮到長序列的問題。

所以我覺得效果效率聯合優化,一個是看模型是不是變得更大、更稀疏,另一個能不能支持更長的序列;同時在訓練的時候,長序列的訓練不要變得更慢。

西亭:多模態領域如何通過架構創新實現突破?

曹越:2021年的時候我們也對Transformer進行了“魔改”,做了一個叫做Spring Transformer的工作,那個時間點在計算機視覺領域還算不錯。

但往后想,大家“魔改”Transformer,很多時候是在改先驗。改先驗的過程有個非常關鍵的問題,就是:你的先驗會不會影響模型效果的天花板。

一個探索維度是,在attention(注意力)中,怎么加入加合適的先驗sparse(稀疏化,從而減少計算復雜度),我覺得這是ROI(投入產出比)很高的事情。

另一個維度,整個多模態領域很多時候涉及多種不同Token類型的融合。這個過程如果在attention做合適的sparse,就能夠顯著提升跨模態融合的效率。

還有一個維度是,怎么做到從Tokenize(編碼)到聯合建模的端到端優化。

西亭:怎么提升Transformer的可解釋性,以及降低幻覺?

孔令鵬:我想先回復一下曹越。我覺得在大家看似相反的道路上面,其實并不是一個矛盾的狀況。

我們做的其實就是找到一個最好能夠適應數據的Bias,或者我相信我的模型能去除所有的Bias,但這也對我的模型提出了更高的要求。

說回模型的可解釋性和幻覺,Transformer要不要背這個鍋是值得商榷的。

我也想問俊旸一件事。因為有一種說法是,強化學習這套范式,對模型后期的“幻覺”可能不是好消息,因為它可能學到了一些錯誤的推理模式。

在Qwen 3和Qwen 2.5中,有沒有看到這樣的現象?

林俊旸:我只能自揭其短。“幻覺”我們確實沒有辦法控制。

所以現在要解決幾個問題。一個是怎么把“幻覺”降下來,反過來通過強化學習的辦法去解決。

另一個是和“幻覺”相關,或者是跟可解釋性相關的事。我們現在在做一些SAE(稀疏自編碼器)相關的研究,發現有些問題的出現,可能和一些特征有非常緊密的關聯。所以我們通過SAE,找到一些特征,然后壓抑它們。

就算做強化學習,發現有“幻覺”的問題,這也不可怕,就看接下來怎么解決。

孔令鵬:一個架構,首先是和硬件聯合考慮的。架構之后又會到來新的問題、新的架構,比如有一些架構不適合做強化學習。

我的感覺是,不要用“GPU+自回歸/Transformer+預訓練/SFT(監督微調)+強化學習”這樣一個固定不變的模式,去考慮所有的事情。

林俊旸:未來可能是會發生變化的。主要我們也沒得選,只能用GPU訓練。

我問過懂硬件的朋友,他說GPU不太適合訓Transformer,我也不可能自己造一款。

但是我們公司可以去做,或者中國反而有一定的機會做軟硬一體。所以將來我們能把問題想得更深一些。

創造其實是一個搜索層面的問題

西亭:目前預訓練的邊際效應好像已經開始遞減。怎么通過架構的革新,突破目前的瓶頸?

林俊旸:先說達到瓶頸這個問題,我是保留疑問的。

因為去年說預訓練要結束了,這成為了共識。但今年大家瘋狂追求非共識。現在美國涌現了新的非共識,叫做預訓練還沒結束。

我不知道該高興,還是不高興。干這一行,我也知道自己差在哪,反正有挺多要補。

如果你覺得千問做得還可以,那我覺得預訓練大有可為。因為我能說的是,我們還有好多數據沒放進去,放一次提升一次。把模型稍微改改,放大一點,性能又提升一次。

西亭:多模態領域,下一代的架構可能有哪些值得關注的點?

曹越:我非常同意俊旸的說法。去年說預訓練要結束了,語言數據快用完了,圖像視頻數據還大有可為,這是我自己一個初步的感覺。

另外一個維度,我覺得下一代的架構還是有挺多大家比較常用的東西。過一段時間大家可以把它拎出來,再看看它是不是常用,或者說它實際上是不是運用了某種先驗,但是大家平時沒有注意到。

如果我們去看過去十幾年的發展史,這其實是一個算力越來越多,整個訓練過程中Bias越來越少的過程。

現在我們有新的算力,在算力比以往充足的情況下,之前一些不太能用的技術,可以拎出來再試一試。

還有一個很容易被大家忽略的部分是優化算力。

西亭:未來模型如何突破理解和生成,走向所謂的智能性創造,甚至創造出一些新的智能?

孔令鵬:這其實是一個現在的模型如何能夠在智能上更進一步的問題。

比如說創作。創作其實仍然是一個搜索層面的問題。一句話20個詞,給你兩千個單詞,它就是有那么多可能性。最終就是在所有的可能性中找到一種。

所以我有時候覺得,如果你把創造理解為一個搜索問題,那它在將來很可能是可以被解決的。

最后我想說的是,不要太焦慮于預測未來,很多時候我們沒有辦法,或者說從來也沒有辦法真正預測未來。

我們只能到某一步的時候,回過頭來看一個東西是不是有進步,回過頭來發現GPT-4o相對GPT-4是進步,4相對3又是進步。

我看過一個心靈雞湯,分享給大家:

有一個問題:飛機在飛行的時候,有多少的時間在它規定的航跡上?答案是0%,因為它不停地在調整,把它調整到既定的航道上。但是它從來沒有在既定的航道上過。

所以預測也許沒有那么大的指導意義。不要害怕犯錯,犯錯之后去修正你的錯誤,回過頭看一下什么東西在進步。這可能是一個不那么焦慮的態度。

歡迎交流!

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
伊媒:多名革命衛隊指揮官、核科學家身亡,哈梅內伊高級顧問重傷

伊媒:多名革命衛隊指揮官、核科學家身亡,哈梅內伊高級顧問重傷

澎湃新聞
2025-06-13 12:10:31
鳳凰傳奇曾毅塌房:戴“性暗示”手表,機場踹女員工,玲花受牽連

鳳凰傳奇曾毅塌房:戴“性暗示”手表,機場踹女員工,玲花受牽連

春序娛樂
2025-06-14 13:15:28
兩年狂撈32億,這對抖音頂流夫婦決定躺平

兩年狂撈32億,這對抖音頂流夫婦決定躺平

野山歷史
2025-06-06 17:29:52
巴鐵空軍馳援伊朗,殲-10C掛霹靂-15迎戰F-35?

巴鐵空軍馳援伊朗,殲-10C掛霹靂-15迎戰F-35?

頭條爆料007
2025-06-14 15:21:04
猛龍突然加入杜蘭特爭奪戰!太陽需求曝光:熱火報價最有吸引力?

猛龍突然加入杜蘭特爭奪戰!太陽需求曝光:熱火報價最有吸引力?

羅說NBA
2025-06-15 06:46:50
米體:受伊朗和以色列戰爭影響,塔雷米已無緣參加世俱杯

米體:受伊朗和以色列戰爭影響,塔雷米已無緣參加世俱杯

懂球帝
2025-06-15 01:45:51
“大尺度”女星的瓜!

“大尺度”女星的瓜!

文刀萬
2025-05-23 06:05:02
噩耗!國家級健身教練唐博濤去世,僅40歲滿身腱子肉,死因惹猜疑

噩耗!國家級健身教練唐博濤去世,僅40歲滿身腱子肉,死因惹猜疑

南南說娛
2025-06-14 14:44:25
牽手門女主角石油姐再曝猛料!

牽手門女主角石油姐再曝猛料!

邱處機
2025-06-13 20:50:42
洛杉磯移民抓捕 引發全美怒火! 特朗普政策或讓 美經濟損失1.7萬億美元

洛杉磯移民抓捕 引發全美怒火! 特朗普政策或讓 美經濟損失1.7萬億美元

每日經濟新聞
2025-06-14 22:38:50
澤連斯基:不希望看到對烏援助因中東局勢升級而減少

澤連斯基:不希望看到對烏援助因中東局勢升級而減少

財聯社
2025-06-14 20:41:52
上海女子不上班,但卻住豪宅開豪車,警察:她家現金堆成山了

上海女子不上班,但卻住豪宅開豪車,警察:她家現金堆成山了

懸案解密檔案
2025-05-09 18:00:29
從賓館服務員干到廳級領導柴高潮被查!非法收受巨額財物 退休多年后仍被查

從賓館服務員干到廳級領導柴高潮被查!非法收受巨額財物 退休多年后仍被查

閃電新聞
2025-06-14 15:25:20
羅馬仕發布公開聲明致歉

羅馬仕發布公開聲明致歉

最江陰
2025-06-14 21:27:30
新疆:沉睡的2億畝耕地,能喚醒中國糧食安全的春天嗎?

新疆:沉睡的2億畝耕地,能喚醒中國糧食安全的春天嗎?

原來仙女不講理
2025-06-13 11:25:01
申花爆冷輸球,這兩人表現太差,一個太莽一個太軟,浪費外援名額

申花爆冷輸球,這兩人表現太差,一個太莽一個太軟,浪費外援名額

星Xin辰大海
2025-06-15 01:05:27
13款“零添加”醬油,竟有12款檢出致癌物

13款“零添加”醬油,竟有12款檢出致癌物

霹靂炮
2025-06-13 23:58:27
女留學生染指上千外國男子,拍成視頻走紅網絡,父母與她斷絕關系

女留學生染指上千外國男子,拍成視頻走紅網絡,父母與她斷絕關系

阿胡
2024-06-16 11:06:11
老顧客都是怎么流失的?網友:被殺熟后才發現自己就是一個小丑!

老顧客都是怎么流失的?網友:被殺熟后才發現自己就是一個小丑!

解讀熱點事件
2025-06-09 00:05:05
累死地勤兵,氣死飛行員,中國空軍105架殲11戰斗機的故事

累死地勤兵,氣死飛行員,中國空軍105架殲11戰斗機的故事

涼羽亭
2025-06-14 20:28:31
2025-06-15 07:07:00
36氪 incentive-icons
36氪
讓一部分人先看到未來
148385文章數 2845604關注度
往期回顧 全部

科技要聞

一輛新車比特斯拉FSD都便宜,全行業陪葬?

頭條要聞

以防長威脅哈梅內伊:若繼續發射導彈 德黑蘭將成火海

頭條要聞

以防長威脅哈梅內伊:若繼續發射導彈 德黑蘭將成火海

體育要聞

約戰天王山,步行者G4輸在了哪?

娛樂要聞

小S迎47歲生日,首個生日沒大S陪伴

財經要聞

樓市權威發聲

汽車要聞

長城為了拿環塔冠軍有多拼?魏建軍在下一盤大棋!

態度原創

家居
時尚
數碼
教育
本地

家居要聞

森林幾何 極簡灰調原木風

中年女人少穿黑色和灰色,年輕色穿出減齡效果,看起來嫩十歲

數碼要聞

黃仁勛親筆簽名版 RTX 5090 鍍金顯卡以 24200 美元達成慈善拍賣

教育要聞

父母反對就要分開嗎?

本地新聞

最近的打工人,都在熬夜看這劇逐幀學習職場小技巧

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 欧美老熟妇乱子伦视频| 人妻夜夜爽天天爽三区麻豆av网站| 免费福利视频一区二区三区高清| 欧美xxxx做受欧美.88| 狠狠色噜噜狼狼狼色综合久| 男人靠女人的免费视频| 亚洲精品成人无码中文毛片| 国产女合集小岁9三部| 婷婷六月在线精品免费视频观看| 国产精品成人3p一区二区三区| 18禁免费无码无遮挡不卡网站| 久久国产精品无码一区二区三区| 老师黑色丝袜被躁翻了av| 久久亚洲道色宗和久久| 97无码免费人妻超级碰碰碰| 波多野42部无码喷潮| 国产未成女一区二区| 免费人成视频x8x8入口| 伊人久久大香线蕉综合影院| 国产视频一区二区| 免费无码黄网站在线观看| 日韩人妻精品无码一区二区三区| 卡一卡二卡三无人区| 日日噜噜噜夜夜爽爽狠狠| 欧美丰满肥婆videos| 国产女人18毛片水真多18精品| 中文字幕亚洲无线码一区女同| v一区无码内射国产| 红杏亚洲影院一区二区三区| 国产精品爱久久久久久久小说| 欧美亚洲日韩国产网站| 国产又粗又猛又大爽又黄| 欧美丰满熟妇aaaaa片| 国产在线观看黄av免费| 免费国偷自产拍精品视频| 无码人妻人妻经典| √天堂资源地址在线官网| 狠狠精品干练久久久无码中文字幕| 97国产精品视频在线观看| 国产精品点击进入在线影院高清| 狠狠色噜噜狠狠狠狠7777米奇|