大香大香伊人在钱线久久,亚洲日韩欧美国产高清αv,日本强伦姧人妻久久影片,亚洲国产成人欧美在线观看

網易首頁 > 網易號 > 正文 申請入駐

GraphRAG太慢LightRAG延遲高?華東師大新方法一招破解雙重難題

0
分享至

Planing Lab團隊 投稿
量子位 | 公眾號 QbitAI

GraphRAG的索引速度慢,LightRAG的查詢延遲高?

這些影響效率的難題,現在終于迎來改進——

由華東師范大學李翔老師帶領的的Planing Lab團隊推出高效解決方法E2GraphRAG



該方法在大部分測試中接近了最優的GraphRAG方法。

并且值得關注的是,該方法在構建索引時間上是GraphRAG的1/10,在查詢時間上是LightRAG的1/100



動機與背景

現有的RAG方法中,大部分都是依賴于文本知識庫,通過向量檢索的方式,從中檢索到與問題相關的一些文檔片段作為補充知識。

這種方法難以實現對整個文檔知識庫的全局理解,比如通過普通RAG的方法,模型仍然無法回答“這篇小說的主旨是什么”這類問題。

為了解決對知識庫的全局理解問題,RAPTOR提出了先對文檔塊進行聚類,然后遞歸構建文檔總結樹,然后在這個文檔總結樹上進行向量查詢的方法,來引入不同粒度的信息;

GraphRAG則利用了大模型強大的信息抽取能力,由大模型從逐個文檔塊中抽取出三元組,然后構成一張圖,之后再通過圖分割算法分割成多個社區,再由大模型對社區進行總結,從而得到了不同粒度的信息。

然而,GraphRAG在圖構建以及查詢的過程中需要調用太多次大模型,導致其開銷過重,難以實用。

為了解決這一問題,LightRAG讓大模型一次性抽取出所有粒度的三元組,從而減少了總結不同社區帶來的大模型調用開銷;

FastGraphRAG則是在查詢的過程中利用了PageRank算法來聚合全局信息,從而避免了查詢時的大模型開銷。

但是這些方法仍然面臨一些問題:

每一個文檔塊需要調用一次大模型,帶來的開銷仍然相對較高;

嚴重依賴于大模型自身的能力,當模型參數量較小或者不支持Json格式輸出的時候,這些方法難以實現;

需要手動設置查詢模式,限制了其面對不同類型問題時的靈活性。

因此,本文中提出通過使用SpaCy來進行文檔中的實體識別,利用實體之間的句中共現關系構成一張圖,然后利用大模型對文檔塊按順序遞歸總結,將其構建成不同粒度的文檔總結樹,之后結合利用圖和樹來進行查詢,實現高效率、高性能。

方法
構建階段



首先和普通RAG一樣,先將長文檔進行分塊,本文中選取1200tokens一塊,相鄰塊間有100tokens的重疊,follow了LightRAG的實驗設置。然后構建階段主要有兩個任務:

利用LLM遞歸總結文檔樹:將文檔塊按照順序排列,每g個文檔塊一組,交給大模型來進行內容總結,由于文檔塊是連續的,這里的相鄰文檔塊之間的重疊可以合并,節約token消耗;

然后對于大模型生成的總結,繼續每g個一組,進一步總結,構成一個文檔樹。

通過這種方式,團隊得到了不同層次、不同粒度的信息,越接近根節點,信息越全局;

越接近葉子節點,信息越具體。

利用SpaCy抽取實體圖:對于每一個文檔塊,團隊利用SpaCy抽取其中的實體以及名詞(他們可能是潛在的實體的代稱),然后在同一句子內出現的實體以及名詞之間構建連邊,體現二者之間存在一定關系。

然后將所有的文檔塊對應的子圖合并到一起,構成一個針對整個文檔中的實體關系的實體圖。

同時,團隊構建兩個index,來描繪文檔和實體之間的關系,即文檔塊中抽取出哪些實體,一個實體能從哪些文檔塊中抽取出來。

通過這兩個任務,團隊得到了上圖中的四種數據結構以及兩個索引,即總結節點、文檔節點、實體、邊;以及實體到文檔塊的一對多索引,文檔塊到實體的一對多索引。

檢索階段





團隊的檢索方式可以根據問題的內容來自動選擇local or global的檢索方式,為了區分這兩種檢索方式,在下文中用斜體來表示global檢索,以示區分。

同時團隊提供了偽代碼,其中標??的是全局檢索的部分。

假設要檢索最多k個文檔塊,具體步驟如下:

  1. 利用SpaCy從問題中抽取出來實體,然后將這些實體兩兩組合(無序),假設有n個實體,團隊會得到*個候選實體對(即圖中Entity Extraction步驟)。
  2. 如果步驟1中不存在實體,那么認為這是一個全局的問題,同時無法利用實體信息來輔助檢索,直接通過向量檢索的方式,從文檔樹上檢索到相關的文檔塊。
  3. 候選實體對中肯定存在噪聲,因此拿它到團隊構建好的圖中去過濾,即兩個實體如果在圖中的距離超過h跳,那么就認為他們是無關的,將其排除(即圖中Graph Filtering步驟)。
  4. 根據上一步剩余的實體對數量,團隊如果有剩余的實體,進行5的local檢索,如果沒有,則執行步驟6的全局檢索:
  5. 如果有剩余的實體對,團隊利用實體到文檔塊的索引將每個實體對中的兩個實體映射到各自對應的文檔塊上,然后對這兩個文檔塊集合取交集,即得到了和這兩個實體均相關的文檔塊(即圖中的Index Mapping步驟)。
  6. 如果沒有剩余的實體對,那么也就意味實體并非緊密相關,那么這也更可能是一個全局查詢,因此團隊首先通過向量檢索檢索到樹上的top- 2k個相關的文檔塊作為候選;
    然后由于問題中也有實體,因此實體可以輔助進行查詢,即計算每一個候選文檔塊中實體的出現次數作為權重,如果這個候選文檔塊是總結塊,那么其對應的權重即為其子節點的權重之和,向下一直遞歸。
    這樣的設計自然會給總結塊更高的權重,自然符合了這是一個全局查詢的假設(即圖中的Occurrence Ranking步驟)。
  7. 如果步驟5返回了超過k個文檔, 那說明團隊的約束太松,因此團隊令h =h-1,然后重新執行步驟5,循環至只剩下不超過k個文檔。
  8. 如果步驟7返回了0個文檔,那么取縮緊約束之前的一個查詢結果,從其中進行篩選,具體篩選指標為:
  • 看這個文檔包含了多少個不同的問題相關的實體;
  • 看這個文檔中問題相關的實體出現了多少次。

團隊首先比較指標1,當指標1打平時,比較指標2,取最高的k個文檔作為結果。

最后團隊將其整理為實體1,實體2:文檔內容的形式,輸入給模型。

實驗結果



團隊在7-8B的相對易部署的模型上進行實驗,確保了該方法在資源受限的情況下仍然能夠有良好表現。

團隊發現,該方法達到了最短的索引構建時間,同時沒有帶來查詢的延遲。

在性能上,在大部分實驗設置下超過或者接近了最優的GraphRAG方法,實現了效率與性能的均衡。

值得關注的是,該方法在構建索引時間上是GraphRAG的1/10,在查詢時間上是LightRAG的1/100。



同時,團隊繪制了文檔token數量和構建索引時間的散點圖,并且擬合成直線。

團隊發現該方法構建索引時間隨著文檔token數量以最低的斜率線性增長,體現該方法可以擴展到更大的文檔上。



團隊進一步進行了消融實驗,三欄分別是:

  • 針對團隊整體方法必要性的消融:只用向量檢索,確保團隊的local-global檢索系統是有效的;
  • 針對local檢索的消融:分別以及同時消去Graph Filter以及Entity-aware Ranking,確保團隊的local檢索的部件是有效的;
  • 針對global檢索的消融:分別以及同時消去Dense Retrieval以及Occurrence Ranking,發現在NovelQA上出現了一個異常的升高,可能是由于模型的幻覺導致的。

通過結合樹與圖,該團隊達成了GraphRAG效率與效果的平衡,在該方法中,圖主要用于信息點的關系發現以及過濾噪聲,而樹則主要用于提供具體不同粒度的信息內容,二者各有所長,相互依賴。

論文地址:https://arxiv.org/abs/2505.24226
代碼倉庫:https://github.com/YiboZhao624/E-2GraphRAG

— 完 —

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
遼寧艦抵近關島,美國態度變了:扣下臺島66架戰機,只收錢不發貨

遼寧艦抵近關島,美國態度變了:扣下臺島66架戰機,只收錢不發貨

紅色鑒史官
2025-06-13 19:00:03
中方衛星突然變軌到伊朗上空,接下來一幕讓以色列冷靜下來

中方衛星突然變軌到伊朗上空,接下來一幕讓以色列冷靜下來

頭條爆料007
2025-06-14 08:19:04
抽到下下簽!鄭欽文可能首輪出局,拿冠軍也難了,鮑里妮天堂好簽

抽到下下簽!鄭欽文可能首輪出局,拿冠軍也難了,鮑里妮天堂好簽

侃球熊弟
2025-06-15 00:01:50
A股:下周一,不好的消息又來了!

A股:下周一,不好的消息又來了!

虎哥閑聊
2025-06-14 16:48:27
日本游戲主機市場正被中國搶奪

日本游戲主機市場正被中國搶奪

海格講
2025-06-12 06:10:04
氛圍超贊!淮安南京比賽一側看臺坐滿觀眾,tifo“崛起江淮”矚目

氛圍超贊!淮安南京比賽一側看臺坐滿觀眾,tifo“崛起江淮”矚目

直播吧
2025-06-14 16:17:14
臺網友集體倒戈,汪小菲詮釋了什么叫“打鐵還需自身硬”

臺網友集體倒戈,汪小菲詮釋了什么叫“打鐵還需自身硬”

大笑江湖史
2025-06-14 07:54:53
長沙玉蘭路死灰復燃!網友爆料:顧客嫖娼致雞婆身亡,法醫都來了

長沙玉蘭路死灰復燃!網友爆料:顧客嫖娼致雞婆身亡,法醫都來了

社會醬
2025-06-14 18:17:14
換鞋換拍!又換衣服!鄭欽文到底輸在了哪里,賽后的數據一清二楚

換鞋換拍!又換衣服!鄭欽文到底輸在了哪里,賽后的數據一清二楚

侃球熊弟
2025-06-15 02:11:33
羅帥宇父親曾稱有人想用1500萬元封口,湖南省衛健委工作人員:馬上會有官方通報

羅帥宇父親曾稱有人想用1500萬元封口,湖南省衛健委工作人員:馬上會有官方通報

深圳晚報
2025-06-13 19:40:17
天選公主!威爾士三寶最新亮相,夏洛特優勢明顯,氣質沉穩似女王

天選公主!威爾士三寶最新亮相,夏洛特優勢明顯,氣質沉穩似女王

阿傖說事
2025-06-14 18:14:15
超巨時刻!亞歷山大末節最后4分38秒獨攬15分逆天改命!

超巨時刻!亞歷山大末節最后4分38秒獨攬15分逆天改命!

直播吧
2025-06-14 11:40:20
中超海港2-2浙江!26018人觀賽,蘇超淮安1-1南京,足協咋應對

中超海港2-2浙江!26018人觀賽,蘇超淮安1-1南京,足協咋應對

阿柒體訊
2025-06-14 21:37:20
俄羅斯一情報部門,公開稱中國為“敵人”,普京或要另謀出路?

俄羅斯一情報部門,公開稱中國為“敵人”,普京或要另謀出路?

允華說
2025-06-12 16:03:44
雷霆2-2扳平!一場丑陋的勝利,誰是贏球最大功臣?數據不會說謊

雷霆2-2扳平!一場丑陋的勝利,誰是贏球最大功臣?數據不會說謊

籃球掃地僧
2025-06-14 11:31:19
上海63歲阿姨未婚未育,尋找40年前的空軍戀人,見到他后淚流滿面

上海63歲阿姨未婚未育,尋找40年前的空軍戀人,見到他后淚流滿面

夜闌故事集
2025-06-10 14:10:02
我不會給羅帥宇唱挽歌

我不會給羅帥宇唱挽歌

關爾東
2025-06-13 16:00:30
特朗普緊急開會,美國在中東調兵!伊朗:美參與襲擊,正準備回應!伊空軍高級軍官被騙聚集開會,遭以軍打擊,司令等多人身亡

特朗普緊急開會,美國在中東調兵!伊朗:美參與襲擊,正準備回應!伊空軍高級軍官被騙聚集開會,遭以軍打擊,司令等多人身亡

每日經濟新聞
2025-06-14 00:40:08
100萬人傷亡背后俄羅斯實際已遭重創

100萬人傷亡背后俄羅斯實際已遭重創

史政先鋒
2025-06-13 10:54:49
【文體市場面面觀】農文旅融合如何“四季紅”

【文體市場面面觀】農文旅融合如何“四季紅”

經濟日報
2025-06-14 05:04:15
2025-06-15 04:31:00
量子位 incentive-icons
量子位
追蹤人工智能動態
10666文章數 176166關注度
往期回顧 全部

科技要聞

一輛新車比特斯拉FSD都便宜,全行業陪葬?

頭條要聞

以防長威脅哈梅內伊:若繼續發射導彈 德黑蘭將成火海

頭條要聞

以防長威脅哈梅內伊:若繼續發射導彈 德黑蘭將成火海

體育要聞

約戰天王山,步行者G4輸在了哪?

娛樂要聞

小S迎47歲生日,首個生日沒大S陪伴

財經要聞

樓市權威發聲

汽車要聞

長城為了拿環塔冠軍有多拼?魏建軍在下一盤大棋!

態度原創

房產
時尚
本地
藝術
教育

房產要聞

又一城購房補貼!買房就發錢,正在海南樓市瘋狂擴散!

中年女人少穿黑色和灰色,年輕色穿出減齡效果,看起來嫩十歲

本地新聞

最近的打工人,都在熬夜看這劇逐幀學習職場小技巧

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

教育要聞

江蘇最新消息:6月28日填報志愿!

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 玩弄少妇秘书人妻系列| 狠狠久久五月精品中文字幕| 国产美女亚洲精品久久久| 成人综合婷婷国产精品久久| 天天射天天日本一道| 国产av国片偷人妻麻豆| 久无码久无码av无码| 偷柏自拍亚洲综合在线| 狠狠躁狠狠躁东京热无码专区| 天堂在/线中文在线资源 官网| 中文字幕精品无码一区二区| 亚洲色无码一区二区三区| 丰满爆乳无码一区二区三区| 国产成人精品日本亚洲网站| 免费国产成人高清在线网站| 日韩精品人妻av一区二区三区| 欧美中文亚洲v在线| 亚洲综合小说另类图片五月天| 午夜不卡久久精品无码免费| 97视频精品全国免费观看| 在线麻豆精东9制片厂av影现网| 中文字幕日韩人妻不卡一区| 被窝影院午夜无码国产| 一二区成人影院电影网| 国产精品va尤物在线观看| 色狠狠色狠狠综合天天| 大香j蕉75久久精品免费8| 亚洲人成网站在线播放无码| 成人午夜精品无码区| 国产成人久久精品激情| 秋霞国产成人精品午夜视频app| 国产毛片一区二区精品| 国产精品久久久久久52avav| 国产xxxx99真实实拍| 亚洲欧洲成人a∨在线观看| 秋霞电影网午夜鲁丝片无码| 无码人妻精品一区二区三区在线| 亚洲中文字幕无码av永久| 亚洲精品国产高清一线久久| 国产精品亚洲欧美大片在线观看| 亚洲综合在线一区二区三区|