大香大香伊人在钱线久久,亚洲日韩欧美国产高清αv,日本强伦姧人妻久久影片,亚洲国产成人欧美在线观看

網易首頁 > 網易號 > 正文 申請入駐

GraphRAG太慢LightRAG延遲高?華東師大新方法一招破解雙重難題

0
分享至

Planing Lab團隊 投稿
量子位 | 公眾號 QbitAI

GraphRAG的索引速度慢,LightRAG的查詢延遲高?

這些影響效率的難題,現在終于迎來改進——

由華東師范大學李翔老師帶領的的Planing Lab團隊推出高效解決方法E2GraphRAG



該方法在大部分測試中接近了最優的GraphRAG方法。

并且值得關注的是,該方法在構建索引時間上是GraphRAG的1/10,在查詢時間上是LightRAG的1/100



動機與背景

現有的RAG方法中,大部分都是依賴于文本知識庫,通過向量檢索的方式,從中檢索到與問題相關的一些文檔片段作為補充知識。

這種方法難以實現對整個文檔知識庫的全局理解,比如通過普通RAG的方法,模型仍然無法回答“這篇小說的主旨是什么”這類問題。

為了解決對知識庫的全局理解問題,RAPTOR提出了先對文檔塊進行聚類,然后遞歸構建文檔總結樹,然后在這個文檔總結樹上進行向量查詢的方法,來引入不同粒度的信息;

GraphRAG則利用了大模型強大的信息抽取能力,由大模型從逐個文檔塊中抽取出三元組,然后構成一張圖,之后再通過圖分割算法分割成多個社區,再由大模型對社區進行總結,從而得到了不同粒度的信息。

然而,GraphRAG在圖構建以及查詢的過程中需要調用太多次大模型,導致其開銷過重,難以實用。

為了解決這一問題,LightRAG讓大模型一次性抽取出所有粒度的三元組,從而減少了總結不同社區帶來的大模型調用開銷;

FastGraphRAG則是在查詢的過程中利用了PageRank算法來聚合全局信息,從而避免了查詢時的大模型開銷。

但是這些方法仍然面臨一些問題:

每一個文檔塊需要調用一次大模型,帶來的開銷仍然相對較高;

嚴重依賴于大模型自身的能力,當模型參數量較小或者不支持Json格式輸出的時候,這些方法難以實現;

需要手動設置查詢模式,限制了其面對不同類型問題時的靈活性。

因此,本文中提出通過使用SpaCy來進行文檔中的實體識別,利用實體之間的句中共現關系構成一張圖,然后利用大模型對文檔塊按順序遞歸總結,將其構建成不同粒度的文檔總結樹,之后結合利用圖和樹來進行查詢,實現高效率、高性能。

方法
構建階段



首先和普通RAG一樣,先將長文檔進行分塊,本文中選取1200tokens一塊,相鄰塊間有100tokens的重疊,follow了LightRAG的實驗設置。然后構建階段主要有兩個任務:

利用LLM遞歸總結文檔樹:將文檔塊按照順序排列,每g個文檔塊一組,交給大模型來進行內容總結,由于文檔塊是連續的,這里的相鄰文檔塊之間的重疊可以合并,節約token消耗;

然后對于大模型生成的總結,繼續每g個一組,進一步總結,構成一個文檔樹。

通過這種方式,團隊得到了不同層次、不同粒度的信息,越接近根節點,信息越全局;

越接近葉子節點,信息越具體。

利用SpaCy抽取實體圖:對于每一個文檔塊,團隊利用SpaCy抽取其中的實體以及名詞(他們可能是潛在的實體的代稱),然后在同一句子內出現的實體以及名詞之間構建連邊,體現二者之間存在一定關系。

然后將所有的文檔塊對應的子圖合并到一起,構成一個針對整個文檔中的實體關系的實體圖。

同時,團隊構建兩個index,來描繪文檔和實體之間的關系,即文檔塊中抽取出哪些實體,一個實體能從哪些文檔塊中抽取出來。

通過這兩個任務,團隊得到了上圖中的四種數據結構以及兩個索引,即總結節點、文檔節點、實體、邊;以及實體到文檔塊的一對多索引,文檔塊到實體的一對多索引。

檢索階段





團隊的檢索方式可以根據問題的內容來自動選擇local or global的檢索方式,為了區分這兩種檢索方式,在下文中用斜體來表示global檢索,以示區分。

同時團隊提供了偽代碼,其中標??的是全局檢索的部分。

假設要檢索最多k個文檔塊,具體步驟如下:

  1. 利用SpaCy從問題中抽取出來實體,然后將這些實體兩兩組合(無序),假設有n個實體,團隊會得到*個候選實體對(即圖中Entity Extraction步驟)。
  2. 如果步驟1中不存在實體,那么認為這是一個全局的問題,同時無法利用實體信息來輔助檢索,直接通過向量檢索的方式,從文檔樹上檢索到相關的文檔塊。
  3. 候選實體對中肯定存在噪聲,因此拿它到團隊構建好的圖中去過濾,即兩個實體如果在圖中的距離超過h跳,那么就認為他們是無關的,將其排除(即圖中Graph Filtering步驟)。
  4. 根據上一步剩余的實體對數量,團隊如果有剩余的實體,進行5的local檢索,如果沒有,則執行步驟6的全局檢索:
  5. 如果有剩余的實體對,團隊利用實體到文檔塊的索引將每個實體對中的兩個實體映射到各自對應的文檔塊上,然后對這兩個文檔塊集合取交集,即得到了和這兩個實體均相關的文檔塊(即圖中的Index Mapping步驟)。
  6. 如果沒有剩余的實體對,那么也就意味實體并非緊密相關,那么這也更可能是一個全局查詢,因此團隊首先通過向量檢索檢索到樹上的top- 2k個相關的文檔塊作為候選;
    然后由于問題中也有實體,因此實體可以輔助進行查詢,即計算每一個候選文檔塊中實體的出現次數作為權重,如果這個候選文檔塊是總結塊,那么其對應的權重即為其子節點的權重之和,向下一直遞歸。
    這樣的設計自然會給總結塊更高的權重,自然符合了這是一個全局查詢的假設(即圖中的Occurrence Ranking步驟)。
  7. 如果步驟5返回了超過k個文檔, 那說明團隊的約束太松,因此團隊令h =h-1,然后重新執行步驟5,循環至只剩下不超過k個文檔。
  8. 如果步驟7返回了0個文檔,那么取縮緊約束之前的一個查詢結果,從其中進行篩選,具體篩選指標為:
  • 看這個文檔包含了多少個不同的問題相關的實體;
  • 看這個文檔中問題相關的實體出現了多少次。

團隊首先比較指標1,當指標1打平時,比較指標2,取最高的k個文檔作為結果。

最后團隊將其整理為實體1,實體2:文檔內容的形式,輸入給模型。

實驗結果



團隊在7-8B的相對易部署的模型上進行實驗,確保了該方法在資源受限的情況下仍然能夠有良好表現。

團隊發現,該方法達到了最短的索引構建時間,同時沒有帶來查詢的延遲。

在性能上,在大部分實驗設置下超過或者接近了最優的GraphRAG方法,實現了效率與性能的均衡。

值得關注的是,該方法在構建索引時間上是GraphRAG的1/10,在查詢時間上是LightRAG的1/100。



同時,團隊繪制了文檔token數量和構建索引時間的散點圖,并且擬合成直線。

團隊發現該方法構建索引時間隨著文檔token數量以最低的斜率線性增長,體現該方法可以擴展到更大的文檔上。



團隊進一步進行了消融實驗,三欄分別是:

  • 針對團隊整體方法必要性的消融:只用向量檢索,確保團隊的local-global檢索系統是有效的;
  • 針對local檢索的消融:分別以及同時消去Graph Filter以及Entity-aware Ranking,確保團隊的local檢索的部件是有效的;
  • 針對global檢索的消融:分別以及同時消去Dense Retrieval以及Occurrence Ranking,發現在NovelQA上出現了一個異常的升高,可能是由于模型的幻覺導致的。

通過結合樹與圖,該團隊達成了GraphRAG效率與效果的平衡,在該方法中,圖主要用于信息點的關系發現以及過濾噪聲,而樹則主要用于提供具體不同粒度的信息內容,二者各有所長,相互依賴。

論文地址:https://arxiv.org/abs/2505.24226
代碼倉庫:https://github.com/YiboZhao624/E-2GraphRAG

— 完 —

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
時隔34年,華盛頓再啟閱兵式

時隔34年,華盛頓再啟閱兵式

中國青年報
2025-06-13 15:26:07
2025年退休金上漲方案公布,漲幅如何?

2025年退休金上漲方案公布,漲幅如何?

君說輿情
2025-06-13 22:27:57
汪小菲說出“櫻桃是紅的”,陳之漢破防:一場直播,打醒太多人!

汪小菲說出“櫻桃是紅的”,陳之漢破防:一場直播,打醒太多人!

眼界縱橫
2025-06-14 09:33:36
馬刺記者:籃網愿用多個首輪簽+球員交易榜眼簽,馬刺不為所動

馬刺記者:籃網愿用多個首輪簽+球員交易榜眼簽,馬刺不為所動

雷速體育
2025-06-15 11:13:04
卡米拉缺席馬車秒變歡樂頌!夏洛特女王范兒把喬治路易襯成小憨憨

卡米拉缺席馬車秒變歡樂頌!夏洛特女王范兒把喬治路易襯成小憨憨

鄉野小珥
2025-06-15 04:02:10
惡魔醫生劉翔峰,罪行累累,喪心病狂!

惡魔醫生劉翔峰,罪行累累,喪心病狂!

燕梳樓頻道
2025-06-12 22:49:14
啪啪打臉!鄭欽文1-2不敵美國悍將無緣決賽!球迷:像業余球員

啪啪打臉!鄭欽文1-2不敵美國悍將無緣決賽!球迷:像業余球員

搏擊江湖
2025-06-15 06:47:19
部隊中,為何軍人要將7讀成“拐”0念成“洞”?血的教訓不敢忘

部隊中,為何軍人要將7讀成“拐”0念成“洞”?血的教訓不敢忘

奇趣放大鏡
2025-06-03 10:53:35
國家要動真格了?社會“新四害”出現,已經影響到老百姓的生活!

國家要動真格了?社會“新四害”出現,已經影響到老百姓的生活!

深析古今
2024-12-27 17:10:32
2025:私募大逃亡!

2025:私募大逃亡!

挖掘機007
2025-06-14 18:24:20
敢說目前CBA,本土只有一人實力超過外援,這名實力可比肩外援

敢說目前CBA,本土只有一人實力超過外援,這名實力可比肩外援

大眼瞄世界
2025-06-14 23:44:17
母女一體,掀個天翻地覆??

母女一體,掀個天翻地覆??

君笙的拂兮
2025-06-01 13:38:53
皮克:恩里克不需要明星球員,姆巴佩走后巴黎成為了一個整體

皮克:恩里克不需要明星球員,姆巴佩走后巴黎成為了一個整體

懂球帝
2025-06-15 09:42:09
大部分女技師,最后都去哪了

大部分女技師,最后都去哪了

加油丁小文
2025-06-12 07:30:03
毛主席幸好在1949年打完解放戰爭:一年后 “五虎將” 三人相繼病

毛主席幸好在1949年打完解放戰爭:一年后 “五虎將” 三人相繼病

近史談
2025-06-14 22:58:10
國常會:審議通過《關于進一步完善信用修復制度的實施方案》

國常會:審議通過《關于進一步完善信用修復制度的實施方案》

澎湃新聞
2025-06-13 19:49:17
很多人在說:性蕭條時代來臨了

很多人在說:性蕭條時代來臨了

深度報
2025-05-29 22:26:07
單打4強全部出爐!國乒3人晉級,日本全軍覆沒,產生2個意想不到

單打4強全部出爐!國乒3人晉級,日本全軍覆沒,產生2個意想不到

知軒體育
2025-06-14 22:13:34
羅醫生,對不起!一年多才知道你,慶幸衛健委回應,已有最新進展

羅醫生,對不起!一年多才知道你,慶幸衛健委回應,已有最新進展

老羴學科普
2025-06-13 15:13:55
夜場女孩和大哥廝混嗎?網友:污了我的眼睛,不純潔了感覺

夜場女孩和大哥廝混嗎?網友:污了我的眼睛,不純潔了感覺

解讀熱點事件
2025-06-14 00:05:03
2025-06-15 11:27:00
量子位 incentive-icons
量子位
追蹤人工智能動態
10666文章數 176167關注度
往期回顧 全部

科技要聞

華為Pura80系列首銷:不再嚴重缺貨

頭條要聞

印度空難幸存者:機身撞出巨大裂口 爬出去后發生爆炸

頭條要聞

印度空難幸存者:機身撞出巨大裂口 爬出去后發生爆炸

體育要聞

約戰天王山,步行者G4輸在了哪?

娛樂要聞

鳳凰傳奇曾毅塌房?網友:別連累玲花

財經要聞

以伊沖突持續升級,對全球市場影響多大

汽車要聞

長城為了拿環塔冠軍有多拼?魏建軍在下一盤大棋!

態度原創

手機
本地
房產
游戲
公開課

手機要聞

蘋果Liquid Glass UI影響文字可讀性并提高設計界面難度引發質疑

本地新聞

最近的打工人,都在熬夜看這劇逐幀學習職場小技巧

房產要聞

又一城購房補貼!買房就發錢,正在海南樓市瘋狂擴散!

《誅仙世界》首次回應銀價暴跌;騰訊網易紛紛做出違背祖訓的決定

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产剧情国产精品一区| 成人日韩熟女高清视频一区| 亚洲日本精品国产第一区二区| 久久视频在线观看精品| 强行无套内谢大学生初次| 国产乱码一区二区三区爽爽爽| 日射精情感性色视频| 欧美国产日韩a在线视频| 狠狠色成人一区二区三区| 手机在线看永久av片免费| 久久亚洲精品无码aⅴ大香| 国精品无码人妻一区二区三区| 丰满人妻妇伦又伦精品国产| 999国内精品永久免费视频| 亚洲人成色7777在线观看| 人与禽交av在线播放| 黄色在线观看| 国产精品制服丝袜无码| 国产又黄又爽无遮挡不要vip| 亚洲 欧美 中文 日韩aⅴ综合视频| 黑人上司粗大拔不出来电影| 天天做天天欢摸夜夜摸狠狠摸| 亚洲精品国产精华液| 亚洲精品综合一区二区三区在线| 在线看片免费人成视频电影| 性色av浪潮av色欲av| 国产偷v国产偷v亚洲高清| 啦啦啦中文在线观看日本| 亚洲欧美成人aⅴ在线| 97精品国产97久久久久久免费| 亚洲免费网站观看视频| 国产丰满乱子伦无码| 成年网站未满十八禁视频天堂| 亚洲444kkkk在线观看| 精品少妇爆乳无码av无码专区| 日韩精品无码一区二区| 97久久超碰成人精品网页| 国产精品无码专区| 国产丝袜足j在线视频播放| 国产精品无码制服丝袜| 国产人久久人人人人爽|