大香大香伊人在钱线久久,亚洲日韩欧美国产高清αv,日本强伦姧人妻久久影片,亚洲国产成人欧美在线观看

網易首頁 > 網易號 > 正文 申請入駐

烏爾姆大學團隊:如何智能排序學術網頁?

0
分享至


在學術界的海洋中航行,尋找高質量的研究論文信息往往像是大海撈針。想象一下,你需要從互聯網的茫茫數據中,精確找出與某篇學術論文相關的所有資源——PDF全文、作者簡介、補充材料等。這正是德國烏爾姆大學的Fabian Karl和Ansgar Scherp教授團隊所面臨的挑戰。他們在2025年4月發表于ECIR 2025國際會議"首屆學術信息獲取國際研討會"(SCOLIA 2025)的最新研究《CRAWLDoc: A Dataset for Robust Ranking of Bibliographic Documents》,為這一問題提供了創新解決方案。感興趣的讀者可以通過他們的GitHub倉庫(https://github.com/FKarl/CRAWLDoc)獲取完整代碼和數據集。

一、為什么我們需要更聰明的學術文獻搜索系統?

想象你是一位圖書管理員,負責維護一個巨大的學術數據庫,比如計算機科學領域的DBLP數據庫。每當有新論文發表,你需要收集該論文的所有重要信息:標題、作者、機構、發表年份等。但問題是,這些信息分散在互聯網各處,格式各異,而且每個出版商的網站結構都不同。

Karl和Scherp教授在論文中指出,現有的解決方案往往局限于分析單一文檔(如PDF文件),而忽略了網絡上豐富的相關資源。目前,像DBLP這樣的主要數據庫通常采用為每個出版商專門定制"包裝器"(wrapper)的方式,就像為每家出版商定制一把專用鑰匙一樣。一旦出版商更改了網站布局,這些"鑰匙"就失效了,需要重新定制——這是一項耗時且需要持續維護的工作。

更大的挑戰在于,關于一篇論文的信息通常不會集中在單個網頁上。你需要瀏覽多個鏈接,查看PDF、ORCID作者檔案、補充材料等。如何從眾多鏈接中找出真正與目標論文相關的資源?這就像在雜貨店購物,需要從琳瑯滿目的商品中準確找出你的購物清單上的每一項。

二、CRAWLDoc:一個聰明的網頁內容排序管家

為解決這一問題,研究團隊開發了名為CRAWLDoc(Contextual RAnking of Web-Linked Documents,網絡鏈接文檔的上下文排序)的創新系統。它就像一個聰明的圖書館助理,能夠自動識別與特定論文相關的各種網絡資源。

這個系統的工作原理非常巧妙。它以論文的DOI(數字對象標識符,相當于每篇論文的唯一身份證號)為起點,訪問論文的登陸頁面,然后收集所有從這個頁面鏈接出去的網絡資源。這些資源可能包括PDF全文、作者的ORCID簡介、補充材料等各種格式的文檔。

最聰明的部分是,CRAWLDoc將登陸頁面視為"問題",將所有鏈接的文檔視為"可能的答案"。通過分析它們之間的相似度,系統能夠判斷哪些鏈接的內容真正與原論文相關。這就像你問朋友"昨天我們討論的那本關于人工智能的書叫什么名字?",朋友會根據問題的上下文,從記憶中找出最相關的信息來回答你。

系統的具體工作流程如下:首先,它從DOI開始,訪問論文的登陸頁面。然后,它抓取所有鏈接的資源,不管是HTML網頁還是PDF文檔。接著,它提取這些文檔的文本內容和布局信息(比如文本在頁面上的位置),并將這些信息與錨文本(鏈接的可點擊文字)和URL一起嵌入到統一的向量空間中。最后,系統計算登陸頁面與各個鏈接文檔之間的相似度,從而對這些文檔進行排序,找出最相關的資源。

三、數據集:六大出版商的600篇論文測試場

為了評估CRAWLDoc的性能,研究團隊創建了一個獨特的數據集。他們從計算機科學領域的六大出版商(IEEE、Springer、Elsevier、ACM、arXiv和MDPI)中各選取了100篇論文,共600篇。這些出版商代表了DBLP數據庫中超過80%的出版物,因此能夠很好地反映現實世界中的多樣性。

對于每篇論文,研究人員手動收集了詳細的元數據,包括標題、發表年份、作者姓名和所屬機構。更重要的是,他們檢索了每篇論文的登陸頁面,并標記了頁面上每個外鏈的相關性——即這個鏈接是否指向與原論文相關的內容。

這個數據集的規模令人印象深刻:600篇論文,72,483個鏈接文檔,每篇論文平均有3.63位作者,每位作者平均有1.14個機構,每個登陸頁面平均有120.81個鏈接,但平均只有5.45個鏈接是真正相關的。這就像在120個蘋果中找出5個特別甜的——需要一個精確的方法來識別它們。

值得一提的是,這是首個包含作者機構信息并提供鏈接文檔相關性標簽的學術數據集。出于法律原因,研究團隊只公開了標簽而非實際網頁內容,但他們提供了完整的源代碼,允許其他研究者復現他們的工作。

四、神奇的秘密武器:小型語言模型

CRAWLDoc的核心技術是一個基于BERT架構的小型語言模型(SLM),名為jina-embeddings-v2。與大型語言模型不同,SLM體積小巧但功能強大,特別適合于這種特定任務。

這個模型能夠處理長達81,921個標記的序列(盡管在實驗中,研究團隊限制為前2,048個標記)。它使用對比學習方法訓練,通過InfoNCE損失函數優化模型參數。簡單來說,就是讓模型學會將相似的內容放在向量空間中的相近位置,將不相關的內容放在較遠的位置。

在實際應用中,系統會將錨文本(鏈接的可點擊文字)、URL和文檔內容用特殊的分隔符連接起來,然后轉換成向量表示。登陸頁面通過查詢編碼器進行編碼,鏈接的文檔通過文檔編碼器進行編碼。然后,系統使用最大內積搜索(MIPS)計算它們之間的相似度,從而對文檔進行排序。

五、令人驚艷的成果:精準找出相關文檔

研究結果令人印象深刻。在評估中,CRAWLDoc在各種排名指標上都表現出色:平均MRR(平均倒數排名)達到0.967,MAP(平均精度均值)達到0.987,nDCG(歸一化折扣累積增益)達到0.961。這些數字接近滿分1.0,表明系統幾乎總能將相關文檔排在最前面。

具體來看,在IEEE、Elsevier、ACM、arXiv和MDPI這五個出版商的數據上,系統的MRR都達到了完美的1.0,意味著相關文檔總是被排在第一位。只有Springer出版商的數據表現略差,MRR和nDCG為0.8。

研究團隊還進行了更詳細的分析,查看了不同截斷值k下的性能。結果顯示,當k=1時(只看排名第一的文檔),精確率高達0.972,意味著97.2%的情況下,排名第一的文檔確實與原論文相關。隨著k值增加,召回率上升而精確率下降,F1分數(精確率和召回率的調和平均)在k=4和k=5時達到最高值0.772。這與每篇論文平均有5.45個相關文檔的事實相符。

六、應對變化的能力:跨出版商的穩健性測試

一個關鍵問題是:系統能否處理它從未見過的出版商的網頁?為了測試這一點,研究團隊采用了"留一法"策略——每次使用五個出版商的數據進行訓練,然后在第六個出版商的數據上進行測試。

結果表明,CRAWLDoc表現出色的跨出版商穩健性。平均而言,在未見過的出版商數據上,系統的MRR為0.959,MAP為0.968,nDCG為0.961——與使用全部訓練數據的結果相差無幾。這意味著系統已經學會了識別相關文檔的通用特征,而不僅僅是記住了特定出版商的網頁布局。

這種穩健性尤為重要,因為學術出版商經常更新他們的網站布局。一個依賴于特定布局的系統會在網站更新后失效,而CRAWLDoc則能夠適應這些變化,繼續提供高質量的結果。

在錯誤分析中,研究團隊發現大多數錯誤是論文特定的,而非系統性的。例如,系統有時會將參考文獻部分的鏈接或同一本書的不同章節錯誤地排在前列。特別是Springer出版物在數據集中表現出更多的特殊情況。

七、未來展望:從排序到提取的漫長旅程

盡管CRAWLDoc已經表現出色,研究團隊認為仍有改進空間。他們提出了幾個未來研究方向:

首先,可以使用"重排序器"進一步提高文檔排序的準確性。其次,可以探索替代的神經檢索設置,如ColBERTv2和基于標記級別的文檔表示與MaxSim相似度計算。

更重要的是,研究團隊計劃將CRAWLDoc集成到DBLP工作流程中,并在CRAWLDoc排序的網絡資源列表上運行不同的元數據提取組件。這將把研究從"找到相關文檔"推進到"從相關文檔中提取有用信息"的階段。

CRAWLDoc的開發代表了學術信息檢索領域的重要進步。通過有效識別與特定論文相關的各種網絡資源,它為自動化元數據提取奠定了基礎,有望改善學術數據庫的質量和完整性。對于研究人員、圖書館員和學術數據庫管理員來說,這是一個令人興奮的發展。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
國內787機長分析印度墜機原因:不排除飛行員重大操作失誤的可能

國內787機長分析印度墜機原因:不排除飛行員重大操作失誤的可能

可達鴨面面觀
2025-06-13 18:05:27
美媒:以色列對伊朗發動襲擊前,五角大樓附近披薩店訂單激增

美媒:以色列對伊朗發動襲擊前,五角大樓附近披薩店訂單激增

環球網資訊
2025-06-14 12:22:15
新華社快訊:德黑蘭上空傳出巨大爆炸聲

新華社快訊:德黑蘭上空傳出巨大爆炸聲

新華社
2025-06-14 01:03:03
以色列暴擊伊朗,南宋路線再次破產

以色列暴擊伊朗,南宋路線再次破產

暢明談宏觀坤
2025-06-13 14:06:27
黃仁勛回應任正非最新講話

黃仁勛回應任正非最新講話

第一財經資訊
2025-06-13 22:47:36
社評:拆掉華為基站讓巴拿馬更安全了嗎

社評:拆掉華為基站讓巴拿馬更安全了嗎

環球網資訊
2025-06-14 00:16:25
鄭欽文:我不是故意要摔倒兩次的,只是我還不懂怎么在草地上奔跑

鄭欽文:我不是故意要摔倒兩次的,只是我還不懂怎么在草地上奔跑

懂球帝
2025-06-14 07:19:09
梁朝偉劉嘉玲在上海,兩人手牽手好恩愛,劉嘉玲臉變了撞臉蔡明

梁朝偉劉嘉玲在上海,兩人手牽手好恩愛,劉嘉玲臉變了撞臉蔡明

界史
2025-06-14 10:07:54
原重慶市市長黃奇帆:如果現在還有人認為房地產會反彈上漲,那他對經濟肯定是沒什么認知的

原重慶市市長黃奇帆:如果現在還有人認為房地產會反彈上漲,那他對經濟肯定是沒什么認知的

互聯網思維
2025-06-13 23:33:51
伊朗稱若再受到襲擊將會封鎖霍爾木茲海峽 外交部回應

伊朗稱若再受到襲擊將會封鎖霍爾木茲海峽 外交部回應

新京報
2025-06-13 16:30:27
中紀委怒批公務員也是人!正常生活不應問責處!

中紀委怒批公務員也是人!正常生活不應問責處!

霹靂炮
2025-06-13 23:49:27
一場丑陋的總決賽!雷霆扳成2-2,裁判嚴重搶戲,亞歷山大轟35分

一場丑陋的總決賽!雷霆扳成2-2,裁判嚴重搶戲,亞歷山大轟35分

老梁體育漫談
2025-06-14 11:31:53
開香檳?步行者名宿末節笑嘻嘻合照 最終卻被翻盤……

開香檳?步行者名宿末節笑嘻嘻合照 最終卻被翻盤……

直播吧
2025-06-14 11:40:20
以色列否認F-35戰機被伊朗擊落

以色列否認F-35戰機被伊朗擊落

財聯社
2025-06-14 12:37:12
中共中央批準:陳杰同志任上海市委常委

中共中央批準:陳杰同志任上海市委常委

新民晚報
2025-06-13 22:22:54
唏噓!71歲伊萬遭解雇后深夜乘機離開中國,無球迷送行+眼神落寞

唏噓!71歲伊萬遭解雇后深夜乘機離開中國,無球迷送行+眼神落寞

我愛英超
2025-06-14 00:38:32
上海航空突發!機艙內冒出濃煙!有人涉嫌違規…乘客礦泉水接力撲救,“劫后余生的感覺”

上海航空突發!機艙內冒出濃煙!有人涉嫌違規…乘客礦泉水接力撲救,“劫后余生的感覺”

上觀新聞
2025-06-14 11:57:34
伊萬凌晨離開中國飛往卡塔爾,足協已終止和他的合作

伊萬凌晨離開中國飛往卡塔爾,足協已終止和他的合作

魯中晨報
2025-06-14 07:54:08
南航“美女經理”:除了生理期就沒閑過,兩年半和上級開房410次

南航“美女經理”:除了生理期就沒閑過,兩年半和上級開房410次

就一點
2025-06-13 16:45:25
孫繼海接受《足球之夜》專訪,談到世預賽失利,就是實力不濟!

孫繼海接受《足球之夜》專訪,談到世預賽失利,就是實力不濟!

田先生籃球
2025-06-13 11:58:33
2025-06-14 13:12:49
至頂頭條 incentive-icons
至頂頭條
記錄和推動數字化創新
11962文章數 49632關注度
往期回顧 全部

教育要聞

小升初數學考試題,可以用金字塔模型,也可以用沙漏模型

頭條要聞

牛彈琴:中東大戰開啟 以色列遭受幾十年來最猛烈攻擊

頭條要聞

牛彈琴:中東大戰開啟 以色列遭受幾十年來最猛烈攻擊

體育要聞

32隊爭10億獎金,全新世俱杯來了!

娛樂要聞

鳳凰傳奇曾毅手表引爭議 含性暗示元素

財經要聞

樓市權威發聲

科技要聞

一輛新車比特斯拉FSD都便宜,全行業陪葬?

汽車要聞

長城為了拿環塔冠軍有多拼?魏建軍在下一盤大棋!

態度原創

親子
手機
游戲
藝術
公開課

親子要聞

寶寶害怕吃藥怎么辦?爸爸傳授的冷靜

手機要聞

小米 Poco F7 手機渲染圖曝光:驍龍 8s Gen 4 芯片、7550mAh電池

SIE總裁稱PS+訂閱價格還會上漲 玩家更喜歡高級檔會員

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 狠狠色噜噜狠狠狠777米奇| 一本一道波多野结衣av黑人| 国产精品扒开腿做爽爽爽a片唱戏| 老熟女重囗味hdxx70星空| 日韩精品久久久久久久电影蜜臀| 全部免费毛片在线播放| 亚洲成亚洲成网| 国产午夜激无码av毛片不卡| 亚洲.欧美.在线视频| 成人免费一区二区三区| 亚洲国产成人爱av在线播放| 狠狠色成人一区二区三区| 亚洲国产精品无码专区成人| 精品人妻少妇一区二区| 久久综合99re88久久爱| 99久久人妻无码精品系列蜜桃| 99在线精品视频高潮喷吹| 醉酒后少妇被疯狂内射视频| 最新亚洲精品国偷自产在线| 国产无遮挡又爽又黄的视频| 青青草国产精品日韩欧美| 免费无遮挡禁18污污网站| 国产午夜三级一区二区三| 亚洲色大成成人网站久久| 亚洲精品97久久中文字幕无码| 伊人久久大香线蕉综合色狠狠| 看国产一毛片在线看手机看| 成年免费视频黄网站在线观看| 亚洲熟妇丰满多毛xxxx| 久久男人av资源网站无码软件| 日韩人妻中文无码一区二区| av一本久道久久波多野结衣| 久久婷婷人人澡人人爽人人喊| 亚洲 a v无 码免 费 成 人 a v| 精品香蕉久久久爽爽| 好男人视频社区在线观看www| 亚洲成在人线天堂网站| 久久av无码精品人妻系列| 欧美z0zo人禽交欧美人禽交| 国产精品免费久久久久影院仙踪林| 国产成+人+综合+亚洲欧美丁香花|