大香大香伊人在钱线久久,亚洲日韩欧美国产高清αv,日本强伦姧人妻久久影片,亚洲国产成人欧美在线观看

網易首頁 > 網易號 > 正文 申請入駐

本科生推翻姚期智40年前的猜想,提出哈希表算法突破搜索效率極限

0
分享至

哈希表(hash table)是計算機科學中最基礎也最重要的數據結構之一,它的歷史可以追溯到 20 世紀 50 年代早期。哈希表的核心思想是通過一個哈希函數,將任意范圍的鍵值映射到一個固定大小的數組空間中。


圖丨一個作為哈希表的小型電話簿(來源:WikiPedia)

這種數據結構就像一個巨大的抽屜柜,每個數據都可以被迅速放入某個抽屜中,并在需要時快速取出。但當抽屜柜接近裝滿時,找到合適的空抽屜就變得越來越困難。

也就是說,當一個哈希表接近裝滿時(比如說已經占用了 99% 的空間),要在剩余空間中找到一個空位至少需要進行與填充率成正比的次數搜索。這就意味著,如果哈希表已經 99% 滿了,那么在最壞情況下,需要大約 100 次嘗試才能找到一個空位。這個理論限制就像物理學中的光速極限一樣,被認為是不可逾越的。

1985 年,圖靈獎得主姚期智在其具有里程碑意義的論文 Uniform Hashing is Optimal 中提出在具有特定屬性的哈希表中,隨機選擇抽屜的方法,即均勻探測(uniform probing)是最優的選擇。


圖丨相關論文(來源:Journal of the ACM)

近 40 年來,計算機科學家們普遍認為姚期智的這個猜想是正確的。這種共識不僅影響了數據庫系統的設計,也深刻影響了眾多依賴高效數據存儲的現代應用程序。然而,這個看似堅不可摧的理論堡壘,最近被一位年輕的本科生撼動了。



因為“無知”推翻 40 年來的猜想

這個突破性的發現源于一個看似偶然的機會。2021 年秋天,羅格斯大學的本科生 Andrew Krapivin 在瀏覽學術論文時,發現了一篇名為 Tiny Pointers 的文章。這篇論文探討了一種新型的數據指針技術,能夠大幅減少計算機內存的使用。那時候 Krapivin 并沒有想太多,但兩年后,當他真正開始深入研究這篇論文時,他意識到這里面隱藏著更多的可能性。


圖丨相關論文(來源:arXiv)

Tiny Pointers 這篇論文探討了一個看似簡單但意義深遠的問題:如何用更少的比特位來存儲計算機中的指針。傳統的指針需要 log n 個比特才能在 n 個位置中定位一個元素。但這篇論文提出了一個巧妙的思路:如果我們預先知道指針屬于哪個用戶,那么就可以利用這個額外信息來壓縮指針的大小。

正是這種壓縮指針的思路啟發了 Krapivin 對哈希表的新認識,在哈希表搜索過程中,我們其實也可以利用之前探測獲得的信息來指導后續的搜索。

相比之下,傳統方法則假設每次探測都是獨立的、均勻隨機的。而 Krapivin 沒有被這一種方式所束縛,其實也只是因為他并不知道這種方法。

他用 Tiny Pointers 進行的探索導致了一種新型的哈希表——一種不依賴于均勻探測的哈希表。對于這種新的哈希表,最壞情況下的查詢和插入所需的時間與 (log x)2 成正比——比 x 快得多。這一結果直接反駁了姚期智的猜想。

當 Krapivin 向他的前教授、Tiny Pointers 的共同作者 Martín Farach-Colton 展示這個設計時,后者最初顯得相當懷疑。這種謹慎是可以理解的:哈希表是計算機科學中研究最充分的數據結構之一,重大突破似乎不太可能。但當論文的另一位合作者、卡內基梅隆大學的 William Kuszmaul 仔細審視這項工作時,他意識到了其革命性意義。

“你并不是僅僅發明了一個新的哈希表,”Kuszmaul 對 Krapivin 說,“你實際上完全推翻了一個存在了 40 年的猜想!”

最終,他們共同合作,完成了這篇論文。


圖丨相關論文(來源:arXiv)

康奈爾理工學院的 Alex Conway 評價道:“這是一項開創性的工作。盡管哈希表已經有著悠久的歷史,但關于它們的工作原理,我們仍然有很多需要了解的地方。這篇論文以令人驚訝的方式回答了其中的幾個根本性問題。”



“彈性哈希”

要理解這項工作的開創性,我們需要先明確傳統哈希表面臨的根本性挑戰。

在傳統的開放尋址哈希表中,當我們需要插入一個新元素時,會按照某個預定義的探測序列逐個檢查位置,直到找到第一個空位。這種方法就被稱為“貪婪策略”,因為它總是急于接受第一個可用的位置。姚期智在 1985 年的論文中證明,在這種貪婪策略下,當哈希表接近滿載時(比如說留有δ比例的空位),最壞情況下需要 O(δ^-1) 次探測才能找到一個空位。并且他猜想這個界限對于任何貪婪策略都是最優的。

然而,Krapivin 的工作證明,如果我們愿意放棄貪婪策略,實際上可以獲得顯著更好的性能。研究提出了一種新的哈希表構造方法,命名為“彈性哈希”(Elastic Hashing),成功實現了均攤探測復雜度 O(1) 的最優解,同時使得最壞情況的探測復雜度降至 O(log δ?1)。這一研究不僅推翻姚期智的猜想,還在不依賴重排操作的前提下,首次證明了更優的探測復雜度下界。

就像 Tiny Pointers 通過利用額外的上下文信息來減少存儲開銷,彈性哈希通過收集更多的探測信息來做出更有效的放置決策。其核心思想是將整個哈希表劃分為多個子數組,并通過一種二元探測結構進行索引。

在該模型中,哈希表被拆分為一系列大小指數遞減的子數組,例如 A?、A?、...、A_?log n?,其中 |A???| = |A?|/2 ± 1。這種層次結構為非貪婪探測提供了可能,使得插入操作可以優先在負載較低的區域進行,同時保證查找過程的高效性。研究者引入了一個特定的映射 φ(i,j),使得二維探測序列 h?,? (x) 可以映射到一維探測序列 hφ(i,j)(x),其中 φ(i,j) ≤ O(i·j2)。該映射的設計確保了在插入過程中,較早被訪問的探測位置能夠更高效地找到空槽,從而降低整體探測復雜度。


(來源:Quanta Magazine)

具體來說,彈性哈希采用分批次插入策略,以確保各個子數組的負載水平得到合理分配。首先,在初始批次 B?中,哈希表的第一個子數組 A? 被填充至約 75% 的負載。隨后,在后續的批次 B? 中,插入操作主要發生在 A?和 A??? 之間,確保每個子數組的負載保持在合理范圍內。

插入過程中,如果某個子數組仍有較多可用槽位(空位比例高于 δ/2),新元素將嘗試在該子數組內找到合適的位置。而當子數組接近滿載時,插入算法會自動轉向下一級子數組,以提高存儲效率。此外,在最壞情況下,即所有子數組的空位都非常有限時,算法會退回到均勻探測策略,但這種情況的概率極低,確保了整體復雜度的優化。

數學分析表明,該方法能夠顯著降低均攤探測復雜度和最壞情況探測復雜度。首先,在均攤探測復雜度方面,研究者證明了彈性哈希的平均探測次數為 O(1),這意味著大多數操作只需要常數次探測就能完成。遠優于均勻探測的 O(log δ?1)。其根本原因在于,彈性哈希將大多數插入操作限制在負載較低的子數組中,使得多數元素能夠在少量探測后成功存儲。

其次,在最壞情況探測復雜度方面,研究表明在無重排的情況下,任何開放尋址哈希的最壞情況探測復雜度必須至少達到 Ω(log δ?1),而彈性哈希實現了這一下界的最優匹配。



“漏斗哈希”

在彈性哈希方法的基礎上,研究者進一步提出了一種新的貪婪開放尋址(Open Addressing)策略,命名為“漏斗哈希”(Funnel Hashing)。通過構造一種層級結構的哈希表,該方法實現了最壞情況的期望探測復雜度 O(log2δ?1),并且證明了這一界限的最優性。

漏斗哈希的基本思想是在哈希表中引入多級結構,使得元素在不同負載水平的區域之間進行分層存儲,從而降低高負載情況下的探測次數。具體而言,哈希表被劃分為多個層級,每一層內部進一步分為若干個等大小的子數組,所有子數組的大小按幾何級數遞減。假設哈希表的總容量為 n,研究者首先將其劃分為兩部分,其中一部分(記為A_α+1)的大小約為 δn,用于存儲最難插入的元素,而剩余部分(記為 A')再細分為 α 個子數組 A?、A?、...、Aα。這些子數組的大小遞減關系滿足 |A???| ≈ 3|A?|/4,并且每個 A? 進一步劃分為若干個小塊,每個小塊的大小設定為 β,其中 β 取 O(logδ?1)。

在插入過程中,每個元素首先會嘗試插入最上層的子數組A?,如果失敗則依次嘗試 A?, A3,……直到成功找到空位或最終進入專門的存儲區 A_α+1。在每一層的插入嘗試中,元素會隨機選擇一個子塊,并依次掃描該子塊中的位置以尋找空槽。這種分層探測策略確保了大多數插入操作可以在前幾層完成,而僅有極少數插入會進入最底層的存儲區域。

數學分析表明,漏斗哈希的最壞情況期望探測復雜度為 O(log2δ?1),顯著優于均勻探測的 O(δ?1)。其核心證明建立在以下幾個關鍵步驟之上。

首先,研究者證明了每個子數組在一定插入次數后都會達到接近飽和的狀態,即子數組內部空槽的數量受嚴格控制。這意味著即使在較高負載的情況下,仍然可以保證大多數插入操作在 O(logδ?1) 次探測內成功。其次,通過分析插入元素在不同層級上的分布,研究者證明了即使在最壞情況下,元素也只需經歷 O(log2δ?1) 次探測,即可找到一個可用的位置。此外,研究者還證明了這一界限的最優性,表明任何貪婪開放尋址哈希表都無法突破 Ω(log2δ?1) 的最壞情況探測復雜度。

除了在期望探測復雜度上的優化,漏斗哈希還具備良好的高概率最壞情況保證。研究者進一步證明,在絕大多數情況下(即以1-1/poly(n) 的概率),任意一個元素的最壞情況探測復雜度不會超過 O(log2δ?1 + log log n)。這意味著即使在極端負載的情況下,該方法仍然能夠保持較為穩定的性能,而不會出現大幅度退化的情況。


圖丨 Farach-Colton(來源:Andrew Farach-Colton)

總之,這一方法的提出不僅解答了姚期智在 1985 年提出的未解決問題,即最壞情況的期望探測復雜度是否可以低于 O(δ?1),還證明了均勻探測在貪婪算法框架下并非最優。對于貪婪哈希表,最壞情況下的探測復雜度可以降低到 O(log2δ?1),而對于非貪婪哈希表,平均查詢時間甚至可以完全獨立于負載因子 δ。

“這只是一個常數,與哈希表是否滿無關”,Farach-Colton 說。無論哈希表是否滿,查詢的平均時間都可以達到常數級別,這個發現甚至出乎研究者自己的意料。

即便目前該研究可能不會立即帶來工業界的應用,但理解數據結構的基礎理論非常重要,因為“你永遠不知道這樣的結果什么時候會解鎖某種新的突破,讓實際應用變得更加高效。”Conway 表示。

參考資料:

1.https://www.quantamagazine.org/undergraduate-upends-a-40-year-old-data-science-conjecture-20250210/

2.https://doi.org/10.1145/3828.3836

3.https://arxiv.org/abs/2501.02305

4.https://arxiv.org/abs/2111.12800

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
走私大鱷梁耀華是如何通過一個女警牢牢套住李紀周的?過程太精彩

走私大鱷梁耀華是如何通過一個女警牢牢套住李紀周的?過程太精彩

牛鍋巴小釩
2025-06-15 09:44:51
蒙托利沃:加圖索不值得我尊敬,但仍祝愿其國家隊執教順利

蒙托利沃:加圖索不值得我尊敬,但仍祝愿其國家隊執教順利

懂球帝
2025-06-14 17:48:31
男孩嫌爺爺寒酸不讓出席畢業禮,軍樂響起全場沸騰,他卻無法淡定

男孩嫌爺爺寒酸不讓出席畢業禮,軍樂響起全場沸騰,他卻無法淡定

無名講堂
2025-06-10 17:17:20
多國出現了退貨潮!演習失敗,中國蘇-35反而成了爆款?

多國出現了退貨潮!演習失敗,中國蘇-35反而成了爆款?

科技處長
2025-06-10 23:00:13
大反轉!中南大學參與調查,羅醫生墜亡事出有因

大反轉!中南大學參與調查,羅醫生墜亡事出有因

平老師666
2025-06-14 12:37:11
湖人消息:老詹萌生退意,全力追逐凱斯勒,2換2方案曝光

湖人消息:老詹萌生退意,全力追逐凱斯勒,2換2方案曝光

冷月小風風
2025-06-15 11:37:28
新總理剛上臺,邀請函立馬遞到北京!解放軍行動,美軍也下場了?

新總理剛上臺,邀請函立馬遞到北京!解放軍行動,美軍也下場了?

寰球視聽
2025-06-14 10:32:57
“Lafufu”擦邊Labubu,泡泡瑪特失算,誰之過?

“Lafufu”擦邊Labubu,泡泡瑪特失算,誰之過?

首席商業評論
2025-06-14 12:47:13
央視除名后,官方又打臉!上戲否認聘用那爾那茜,官媒發聲讓徹查

央視除名后,官方又打臉!上戲否認聘用那爾那茜,官媒發聲讓徹查

農村教育光哥
2025-06-14 10:46:25
上海金融精英淪為階下囚!他毀掉了很多家庭,被判無期徒刑...“這種痛,永遠讓我窒息”

上海金融精英淪為階下囚!他毀掉了很多家庭,被判無期徒刑...“這種痛,永遠讓我窒息”

上觀新聞
2025-06-14 22:33:49
摩根大通上調“最壞情況概率”至17%:霍爾木茲海峽關閉,油價將升至120美元

摩根大通上調“最壞情況概率”至17%:霍爾木茲海峽關閉,油價將升至120美元

華爾街見聞官方
2025-06-15 10:48:18
小貝封爵正式官宣,曼聯印球衣祝賀!終圓爵士夢但遇一人仍需低頭

小貝封爵正式官宣,曼聯印球衣祝賀!終圓爵士夢但遇一人仍需低頭

羅米的曼聯博客
2025-06-14 12:16:04
為何越南女嫁到中國后全跑光了,越南女說出了真相

為何越南女嫁到中國后全跑光了,越南女說出了真相

二月侃事
2025-06-14 10:26:42
白月光的殺傷力有多大?看完分享,這哪是月光,簡直是大殺器!

白月光的殺傷力有多大?看完分享,這哪是月光,簡直是大殺器!

墻頭草
2025-05-12 09:23:13
479架俄機轟炸基輔13小時,俄一夜進攻三州,烏克蘭陷入滅國憂慮

479架俄機轟炸基輔13小時,俄一夜進攻三州,烏克蘭陷入滅國憂慮

肖茲探秘說
2025-06-13 13:16:48
朱自清長子因何在33時歲被判處死刑并立即執行?

朱自清長子因何在33時歲被判處死刑并立即執行?

深度報
2025-06-13 23:50:28
那爾那茜父母參加的飯局!

那爾那茜父母參加的飯局!

八卦瘋叔
2025-06-15 08:50:19
新疆:沉睡的2億畝耕地,能喚醒中國糧食安全的春天嗎?

新疆:沉睡的2億畝耕地,能喚醒中國糧食安全的春天嗎?

原來仙女不講理
2025-06-13 11:25:01
猶太資本早已滲透中國?貝萊德悄無聲息布局,想將中國變成美國

猶太資本早已滲透中國?貝萊德悄無聲息布局,想將中國變成美國

史智文道
2025-04-19 08:30:10
比汪小菲還慘?王思聰突傳噩耗,他也走上了父親王健林老路

比汪小菲還慘?王思聰突傳噩耗,他也走上了父親王健林老路

小新說娛
2025-06-13 18:17:41
2025-06-15 12:07:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評論獨家合作
15294文章數 513782關注度
往期回顧 全部

科技要聞

華為Pura80系列首銷:不再嚴重缺貨

頭條要聞

清華高顏值美女學霸走紅 本人最新發聲

頭條要聞

清華高顏值美女學霸走紅 本人最新發聲

體育要聞

裁判可以噴,但也從步行者自身找找問題?

娛樂要聞

鳳凰傳奇曾毅塌房?網友:別連累玲花

財經要聞

以伊沖突持續升級,對全球市場影響多大

汽車要聞

長城為了拿環塔冠軍有多拼?魏建軍在下一盤大棋!

態度原創

家居
時尚
房產
手機
公開課

家居要聞

森林幾何 極簡灰調原木風

夏天最值得入手的6件單品,全在這了

房產要聞

又一城購房補貼!買房就發錢,正在海南樓市瘋狂擴散!

手機要聞

消息稱小米 MIX Flip2、魅族 22 系列等機型 6 月-7 月發布

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产亚洲综合久久系列| 亚洲精品无码久久久久牙蜜区| 青青青青久久精品国产| 欧美日韩精品无码一本二本三本色| 精品欧美乱码久久久久久1区2区| 一本一道久久综合狠狠老| 久久国产36精品色熟妇| 丰满的少妇xxxxx青青青| 性无码专区无码| 人人妻一区二区三区| 四虎永久在线精品免费一区二区| 精品一区二区久久久久久久网站| 伊人久久大香线蕉亚洲五月天| 一本大道熟女人妻中文字幕在线| 免费无码不卡视频在线观看| 久久精品伊人波多野结衣| 色窝窝亚洲av网在线观看| 久久久久久久久毛片精品| 人妻在卧室被老板疯狂进入国产| 国产丝袜在线精品丝袜| 国产精品欧美一区二区三区| 国产免费mv大片人人电影播放器| 国内精品国内精品自线一二三区| 欧美日韩亚洲tv不卡久久| 日韩精品免费一线在线观看| 天天噜日日噜狠狠噜免费| 国产a√精品区二区三区四区| 国模冰莲自慰肥美胞极品人体图| 久久这里只有精品青草| 国产成人国产在线观看| 人妻无码αv中文字幕久久琪琪布| 久久婷婷香蕉热狠狠综合| 亚洲成a人片在线观看无码专区| 午夜福利视频合集1000| 在线a亚洲视频播放在线观看| 久久久亚洲欧洲日产无码av| 国产av无码一区二区二三区j| 午夜天堂一区人妻| 久久久久久久99精品免费观看| 国产人妇三级视频在线观看| 亚洲精品一区二区三区婷婷月|