大香大香伊人在钱线久久,亚洲日韩欧美国产高清αv,日本强伦姧人妻久久影片,亚洲国产成人欧美在线观看

網易首頁 > 網易號 > 正文 申請入駐

科學家驗證強柏拉圖表征假說,證明模型會收斂于相同通用意義幾何

0
分享至

2024 年,美國麻省理工學院團隊曾提出“柏拉圖表征假說”(Platonic Representation Hypothesis),該假說推測現代神經網絡的表征空間正在趨于收斂。即不同的 AI 模型正在趨向于一個統一的現實表征。就像在柏拉圖洞穴寓言中囚犯們看到的影子是現實的投影一樣,正在不斷迭代的 AI 模型也開始理解投影背后更高維度的現實。當時,相關論文還曾獲得前 OpenAI 首席科學家伊利亞·蘇茨克維(Ilya Sutskever)的點贊。

2025 年 5 月,在上述基礎之上,美國康奈爾大學博士生張睿杰和所在研究團隊提出“強柏拉圖表征假說”(Strong Platonic Representation ypothesis),即潛在的通用表征是可以被學習并加以利用的,也能在無需任何編碼器或成對數據的情況下實現表征空間之間的轉換。


圖 | 張睿杰(來源:https://collinzrj.github.io/)

研究中,他們還提出一種名為 vec2vec 的新方法,這是一種能將文本嵌入從一個向量空間轉換到另一個向量空間的方法。其表示這也是第一種無需任何配對數據、編碼器或預定義匹配集即可實現上述能力的方法。

也就是說,作為一種無監督方法,vec2vec 能將任意嵌入與“柏拉圖表征假說”推測的通用語義結構進行雙向轉換。

具體來說,vec2vec 能夠轉換由未知編碼器生成的未知文檔嵌入,并且對于分布外的輸入具有魯棒性。哪怕模型架構、參數規模和訓練數據各不相同,vec2vec 在模型對之間仍能實現高度的余弦相似度。在保留未知嵌入幾何結構的同時,該方法能夠將其轉換到不同空間。

換言之,vec2vec 能夠學習“與領域無關”的轉換,這一能力主要基于不同嵌入空間中表示相同語義時所通用的幾何結構關系。同時,研究團隊還證明 vec2vec 轉換能夠保留足夠的輸入語義,從而支持屬性推理。

此外,他們從一些患者記錄和企業郵件中提取了一些敏感疾病信息和其他相關內容,不過他們僅僅訪問了文檔嵌入,并未接觸生成這些嵌入的編碼器。

通過本次研究他們發現,更好的轉換方法將能實現更高保真度的信息提取,這再次印證了一個事實:嵌入所揭示的信息幾乎與其輸入內容一樣多。

因此,此次發現能為基于文本的模型的“強柏拉圖表征假說”提供令人信服的證據。

基于 OpenAI 幾年前推出的“對比語言 - 圖像預訓練”(CLIP,Contrastive Language - Image Pretraining)模型,本次研究的初步實驗結果表明,通用幾何結構也可用于其他模態。

需要說明的是,本次成果僅僅是表征間轉換的一個下限。隨著更好、更穩定的學習算法的面世,以及相關架構的改進,預計本次成果將能擴展到更多數據、更多模型家族和更多模態之中。



余弦相似度高達 0.92

據了解,文本嵌入是現代自然語言處理(NLP,Natural Language Processing)的核心,它能為檢索、檢索增強生成(RAG,Retrieval-Augmented Generation)、分類和聚類等任務提供支持。

對于許多嵌入模型來說,它們是在不同數據集、不同數據打亂方式和不同初始化條件下訓練而來的。

文本的嵌入編碼了其語義信息:一個優秀的模型會將語義相近的文本,映射到嵌入空間中彼此接近的向量上。由于語義是文本的屬性,同一文本的不同嵌入應該編碼相同的語義。

然而,在實踐中,不同的模型會將文本編碼到完全不同且不兼容的向量空間中。

此前,由麻省理工學院團隊提出的“柏拉圖表征假說”推測:所有足夠大的圖像模型都具有相同的潛在表征。針對文本模型,本次研究團隊提出了該假說的一個更強的建設性版本:文本表征的通用潛在結構是可以被學習的,并能進一步地在無需任何配對數據或編碼器的情況下,利用該結構將表征從一個空間轉換到另一個空間。

在這項工作中,研究團隊證明強柏拉圖表征假說在實踐中是成立的。通過給定來自兩個具有不同架構和訓練數據的模型的未配對嵌入示例,他們使用 vec2vec 學習了一個潛在表征,其中這些嵌入幾乎完全相同。


(來源:資料圖)

研究中,他們從跨語言詞嵌入對齊研究和無監督圖像翻譯研究中汲取靈感。據介紹,vec2vec 使用對抗性損失和循環一致性,來學習將嵌入編碼到共享潛在空間中,并能以最小的損失進行解碼,這使得無監督轉換成為了可能。

同時,研究團隊采用了一種對抗性方法,并結合向量空間保持技術,來學習如何將未知嵌入分布映射到已知分布。

通過此,他們發現 vec2vec 轉換在目標嵌入空間中與真實向量的余弦相似度高達 0.92,并且在 8000 多個隨機排列的 vec2vec 嵌入上實現了完美匹配,而且無需預先訪問匹配集合。為了證明上述轉換同時保留了“嵌入的相對幾何結構”和“底層輸入的語義”,他們在完全不了解生成原始嵌入模型的情況下,使用零樣本的屬性開展推斷和反演,并從這些向量中成功提取到了信息。



無監督嵌入轉換

據了解,關于嵌入向量集之間的匹配問題或對應問題,已經有大量的研究。但是,這些方法都不適用于本次研究的設置,因為此前研究假設存在由不同編碼器從相同輸入產生的兩組或更多組的嵌入向量。

換句話說,對于每個未知向量來說,必須已經存在另一組不同嵌入空間中的候選向量,其中有一個是正確匹配項。

但是,在實際應用中,很難獲得這樣的數據庫。研究團隊表示,他們之所以認為無監督嵌入轉換是可行的,是因為它完全取決于更強版本的柏拉圖表征假說。

為此,他們提出了如下猜想:當使用相同的目標和模態,但是使用不同數據以及由不同模型架構訓練的神經網絡,將會收斂到一個通用的潛在空間,從而在無需任何成對對應關系的情況下,即可學習各自表征之間的轉換。

在計算機視覺領域,結合了循環一致性和對抗正則化的無監督轉換已經取得成功。因此,研究團隊在 vec2vec 的設計上,也從這些方法中獲得了一些啟發。

與此同時,他們希望實現具有循環一致性和不可區分性的嵌入空間轉換。與圖像不同的是,嵌入向量不具有任何空間偏差。

研究中,研究團隊并沒有使用卷積神經網絡(CNN,Convolutional Neural Network),而是采用了具有殘差連接、層歸一化和 SiLU 非線性激活函數的多層感知機(MLP,Multilayer Perceptron)。在判別器上則采用了與生成器類似的結構,但是省略了殘差連接,以便讓對抗學習過程得到簡化。



無需任何配對數據,就能學習轉換嵌入向量

在數據集上,研究團隊使用了由真實用戶查詢的自然問題(NQ,Natural Questions)數據集,并使用了由維基百科答案訓練的數據集。

為了針對信息提取進行評估:

首先,他們使用了 TweetTopic,這是一個由 19 個主題組成的、有著多標簽標記的推文數據集。

其次,他們使用了偽重新識別的 MIMIC-III(MIMIC)的隨機 8192 個記錄子集,并使用了由 2673 個 MedCAT 疾病描述多重標記的患者記錄的 MIMIC 數據集的偽重新識別版本。

再次,他們使用了已經倒閉的能源公司安然(Enron)的電子郵件語料庫的 50 封隨機電子郵件子集,這也是一個未標記的公共數據集。

在模型上,研究團隊使用了代表三種規模類別、四種 Transformer 主干架構和兩種輸出維度的嵌入模型。其中,Granite 是多語言模型,CLIP 是多模態模型。


(來源:資料圖)

實驗中,他們證明 vec2vec 能夠學習一個通用的潛在空間,并證明這個空間保留了所有嵌入的幾何結構。這讓他們可以將其用作一種文本編碼器的通用語言,并且無需任何配對數據就能轉換其表征。

實驗結果顯示,vec2vec 轉換能夠反映目標空間的幾何結構。如下圖所示,vec2vec 在模型對之間生成了近乎最優分配的嵌入,實現了高達 0.92 的余弦相似性分數、高達 100% 的 top-1 準確率,且矩陣秩(rank)低至 1。


(來源:資料圖)

在相同骨干網絡的配對組合中,vec2vec 甚至能夠接近于借助先知(oracle)的最優分配方案的性能。vec2vec 生成的嵌入向量,比 na?ve 基線更加接近真實值。

在跨主干配對中,vec2vec 在所有指標上都遠勝一籌,而基線方法的表現則與隨機猜測相差無幾。如下圖所示,這種性能甚至可以擴展到分布外數據。


(來源:資料圖)

如前所述,vec2vec 轉換器是在 NQ 數據集上訓練的,但是在 X 推文和醫療記錄上進行評估時,它仍然表現出較高的余弦相似性、較高的準確率以及較低的矩陣秩。


(來源:資料圖)

研究團隊指出,vec2vec 始終優于最優任務基線。這些結果表明,本次方法在適應新模態方面具有潛力,特別是 CLIP 的嵌入空間已經成功與其他模態比如熱圖、音頻和深度圖建立了連接。



使用 vec2vec 轉換來提取信息

研究中,研究團隊證明 vec2vec 轉換不僅保留了嵌入的幾何結構,還保留了足夠的語義以便能夠支持屬性推理。

如下圖所示,對 vec2vec 轉換進行的屬性推理始終優于 na?ve 基線,并且往往比理想的零樣本基線表現更好。需要說明的是,這一理想基線旨在針對同一空間中的真實文檔嵌入和屬性嵌入進行推理。由于在本次研究場景中無法獲得這些嵌入,因此它是一個假設性基線。


(來源:資料圖)

研究團隊表示,vec2vec 轉換甚至適用于醫療記錄的嵌入向量。在同主干配對中,針對轉換后的嵌入進行屬性推理的表現與 na?ve 基線相當,而在跨主干配對中則大幅優于簡單基線。

比如,vec2vec 能夠保留像“牙槽骨骨膜炎”這類概念的語義,而這類概念從未出現在訓練數據中,這證明 vec2vec 的潛在空間確實是一種通用表示。

反演,即重建文本輸入。相比屬性推斷,反演更加具有挑戰性。而 vec2vec 轉換能夠保留足夠的語義信息,以至于就算使用那些“原本為標準編碼器生成的嵌入”而開發的現成零樣本反演方法,也能僅憑轉換后的嵌入,來從一些模型對中重建多達 80% 的文檔內容。


(來源:資料圖)

當然,這些反演并不完美。研究團隊表示,他們將在未來針對轉換后嵌入開發專門的反演器。總的來說,本次研究證明所有語言模型都會收斂于相同的“通用意義幾何”,從而將給向量數據庫的發展帶來一定影響。

參考資料:

https://arxiv.org/pdf/2505.12540

運營/排版:何晨龍

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
《長安的荔枝》劇版VS電影版真人,是否會打破丑的魔咒?

《長安的荔枝》劇版VS電影版真人,是否會打破丑的魔咒?

奴染
2025-06-14 23:03:10
年紀大的干部,千萬別碰有去無回的崗位

年紀大的干部,千萬別碰有去無回的崗位

細說職場
2025-06-15 06:58:09
盧克文:他們無節制的生孩子,才是他們社會不斷動蕩的原因

盧克文:他們無節制的生孩子,才是他們社會不斷動蕩的原因

小嵩
2025-06-09 11:00:44
潛伏我國30年美國辣醬巨頭,年入450億擊敗老干媽,被誤認是國貨

潛伏我國30年美國辣醬巨頭,年入450億擊敗老干媽,被誤認是國貨

南權先生
2025-06-12 16:40:46
三分機器!霍華德全場命中9記三分,轟下36分創賽季新高

三分機器!霍華德全場命中9記三分,轟下36分創賽季新高

雷速體育
2025-06-14 09:42:23
中日空中交鋒,日方稱日本沒有人員傷亡,并裝可憐向中方提要求

中日空中交鋒,日方稱日本沒有人員傷亡,并裝可憐向中方提要求

大道無形我有型
2025-06-12 12:25:33
館長訪問四行倉庫后震撼感慨2段話,諷刺統派代表,飆罵獨派代表

館長訪問四行倉庫后震撼感慨2段話,諷刺統派代表,飆罵獨派代表

史潎的生活日記
2025-06-15 02:21:37
63歲藝人吳毅將到何家勁工廠做司機,吃食堂飯感謝何家勁的幫助

63歲藝人吳毅將到何家勁工廠做司機,吃食堂飯感謝何家勁的幫助

素素娛樂
2025-06-12 08:06:48
桉樹困局:廣西4500萬畝“搖錢樹”為何賣不動了?

桉樹困局:廣西4500萬畝“搖錢樹”為何賣不動了?

愛下廚的阿椅
2025-06-15 00:53:35
你永遠想象不到人在國外旅游能捅多大的婁子

你永遠想象不到人在國外旅游能捅多大的婁子

窮游網
2025-06-14 17:37:41
退休10年后被徹查,71歲崔國潮,被開除黨籍!

退休10年后被徹查,71歲崔國潮,被開除黨籍!

五月的書房
2025-06-10 15:50:46
梁曉聲點破職場真相:越往上走,越拼這三樣

梁曉聲點破職場真相:越往上走,越拼這三樣

清風拂心
2025-06-10 10:30:03
重拳出擊!中方發出最后通牒,重裝部隊壓境直抵班公湖,不戰而勝

重拳出擊!中方發出最后通牒,重裝部隊壓境直抵班公湖,不戰而勝

Ck的蜜糖
2025-06-13 01:28:57
上海申花1-3新鵬城,產生3大不可思議+2個不爭事實,揪出全場最差

上海申花1-3新鵬城,產生3大不可思議+2個不爭事實,揪出全場最差

球場新視角1號
2025-06-14 21:45:33
新四軍宣傳部長57歲任上海市委書記,1983年被開除黨籍

新四軍宣傳部長57歲任上海市委書記,1983年被開除黨籍

樂趣紀史
2025-06-14 19:37:01
清朝為什么在尼布楚談判中,放棄了關鍵的貝加爾湖?真相令人憤慨

清朝為什么在尼布楚談判中,放棄了關鍵的貝加爾湖?真相令人憤慨

文史達觀
2024-06-12 11:15:20
郭晶晶逛上海飾品店,穿53元布鞋,霍啟剛穿愛馬仕,能買她146雙

郭晶晶逛上海飾品店,穿53元布鞋,霍啟剛穿愛馬仕,能買她146雙

吐不滿的痰娛
2025-06-14 19:19:44
剛下課就談新合同?伊萬被哄搶,下家4選1,或比國足新帥早上任?

剛下課就談新合同?伊萬被哄搶,下家4選1,或比國足新帥早上任?

體育有點水
2025-06-14 15:45:21
怕跑出來嗎?胸上那根線用來綁什么?

怕跑出來嗎?胸上那根線用來綁什么?

貴圈真亂
2025-06-09 11:40:53
30歲男子相親相到初中的班花,自卑得轉身就走:我哪里配得上她

30歲男子相親相到初中的班花,自卑得轉身就走:我哪里配得上她

唐小糖說情感
2025-06-12 08:54:25
2025-06-15 10:03:01
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評論獨家合作
15294文章數 513782關注度
往期回顧 全部

科技要聞

華為Pura80系列首銷:不再嚴重缺貨

頭條要聞

印度空難幸存者:機身撞出巨大裂口 爬出去后發生爆炸

頭條要聞

印度空難幸存者:機身撞出巨大裂口 爬出去后發生爆炸

體育要聞

約戰天王山,步行者G4輸在了哪?

娛樂要聞

鳳凰傳奇曾毅塌房?網友:別連累玲花

財經要聞

以伊沖突持續升級,對全球市場影響多大

汽車要聞

長城為了拿環塔冠軍有多拼?魏建軍在下一盤大棋!

態度原創

教育
時尚
藝術
游戲
手機

教育要聞

高考陪考現象:爸媽沒到小姨到,楊雨婷捧向日葵花,還有家長哭了

夏天最值得入手的6件單品,全在這了

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

《誅仙世界》首次回應銀價暴跌;騰訊網易紛紛做出違背祖訓的決定

手機要聞

蘋果Liquid Glass UI影響文字可讀性并提高設計界面難度引發質疑

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 色悠久久久久久久综合网伊人| 男人添女人下部高潮视频| 国内揄拍国内精品人妻浪潮av| 国产无遮挡又黄又爽无vip| 精品视频无码一区二区三区| 天天做天天爱夜夜爽女人爽| 亚洲av高清在线一区二区三区| 夜夜爽一区二区三区精品| 国产男女猛烈无遮挡a片漫画| 亚洲精品久久久av无码专区| 精品h动漫无遮挡在线看中文| ā片在线观看免费看无码| 国产成人精品男人的天堂| 亚洲一区二区三区无码久久| 好男人社区在线www| 亚洲精品熟女国产| 国产成人免费ā片在线观看老同学| 久久国产福利一区二区| 国产午夜手机精彩视频| 亚洲国产成人精品无码区在线软件| 国产乱子伦视频大全亚瑟影院| 国产亚洲精品一区二三区| 国产艳妇av在线出轨| 久久无码成人影片| 成人va亚洲va欧美天堂| 日韩中文字幕免费视频| 国产高清av首播原创麻豆| 午夜福利伦伦电影理论片在线观看| 精品人妻系列无码专区久久| 97精品久久天干天天天按摩| 久久av无码专区亚洲av桃花岛| 欧美情侣性视频| 亚洲人成网站18禁止无码| 国产亚洲精品欧洲在线观看| 偷国产乱人伦偷精品视频| 免费国产线观看免费观看| 九九热在线视频精品店| 国产色欲av一区二区三区| 中国少妇内射xxxxⅹhd| 国产乱子伦精品免费无码专区| 亚洲国产欧美日韩图片在线人成|