近日,華南農(nóng)業(yè)大學農(nóng)學院、未來作物精準育種基礎研究卓越中心、亞熱帶農(nóng)業(yè)生物資源保護與利用國家重點實驗室和嶺南現(xiàn)代農(nóng)業(yè)科學與技術廣東省實驗室劉耀光院士/祝欽瀧研究員團隊聯(lián)合清華大學在國際著名期刊Advanced Science(中科院一區(qū)TOP期刊,影響因子16.3)在線發(fā)表了題為“PlantGPT: An Arabidopsis-based Intelligent Agent That Answers Questions About Plant Functional Genomics”的研究論文,并被選為Editor's Choice與Frontispiece(扉頁論文)高亮推薦。該工作開發(fā)了一個以擬南芥為基礎的植物功能基因組學專家問答系統(tǒng)PlantGPT,通過融合檢索增強生成(RAG)技術和大語言模型(LLM)微調(diào)方法,實現(xiàn)了對植物功能基因組學專業(yè)問題的精準回答與分析,為植物科學研究領域提供了全新的人工智能輔助工具。
面對全球糧食安全和作物品質(zhì)提升的挑戰(zhàn),功能基因組學研究在增加作物產(chǎn)量、改善營養(yǎng)品質(zhì)、提高抗病蟲性和逆境適應性等方面發(fā)揮了關鍵作用。然而,現(xiàn)有的計算生物學手段在解析復雜生物系統(tǒng)調(diào)控機制及整合多組學數(shù)據(jù)方面仍存在瓶頸。同時,傳統(tǒng)植物數(shù)據(jù)庫如TAIR(The Arabidopsis Information Resource)盡管包含豐富數(shù)據(jù)資源,但因交互方式局限,常常要求用戶掌握精確的性狀或基因命名才能有效檢索信息。
該研究通過結合檢索增強生成(RAG)技術和大語言模型(LLM)微調(diào),建立了包含超過60,000篇植物研究文章摘要的向量數(shù)據(jù)庫,使用13,993個擬南芥表型和23,323個基因功能數(shù)據(jù)構建了101,000個問答對進行模型優(yōu)化。相比傳統(tǒng)的計算生物學方法,PlantGPT能夠準確回答植物功能基因組學領域的專業(yè)問題,并成功克服了大語言模型在專業(yè)領域應用中的“幻覺”問題。
AI驅動的植物功能基因組學研究
基于以上,研究團隊成功開發(fā)了PlantGPT——首個專門用于植物功能基因組學研究的大語言模型AI助手。該系統(tǒng)基于擬南芥專業(yè)知識和文獻構建,具備強大的生物知識泛化框架,能夠在三個關鍵層面發(fā)揮重要作用:為公眾提供農(nóng)業(yè)知識普及,幫助早期研究者快速適應植物基因組學領域,以及支持資深研究人員進行戰(zhàn)略決策。憑借其開源性、易遷移性和持續(xù)更新特性,PlantGPT不僅顯著提升了植物科學領域的研究效率和知識傳播效果,還為研究人員創(chuàng)建垂直領域專業(yè)Agent提供了有力支撐,標志著人工智能在植物功能基因組學研究中的重要突破。PlantGPT目前通過提供免費在線服務,未來計劃擴展至合成生物學及更多作物物種的應用。
華南農(nóng)業(yè)大學博士生張瑞祥、清華大學博士生王昱和博士生楊威楊為該論文共同第一作者,祝欽瀧研究員、劉耀光院士和清華大學自動化系谷淼博士為共同通訊作者。該研究得到了國家自然科學基金、生物育種-國家科技重大專項、廣東省未來作物精準育種基礎研究卓越中心重大項目和廣東省種業(yè)振興項目的資助。
相關論文鏈接:
http://doi.org/10.1002/advs.202503926
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.