近日,一家名為 FutureHouse 的非營利組織宣布推出一款名為 Robin 的新型人工智能(AI)工具,聲稱其能夠極大加速生物學等領域的科學研究進程,該系統不僅能夠自主完成從假設提出、實驗設計到數據分析等關鍵科研環節,更在實際應用中,僅歷時約 2.5 個月便成功為干性年齡相關性黃斑變性(dAMD,dry age-related macular degeneration)這一復雜眼疾發現了一種新的潛在治療藥物。相關成果已通過預印本論文形式在arXiv平臺發布,并引起了科研領域和 AI 界的廣泛關注。
多個智能體構成的全自動科研流程
這家由前谷歌 CEO Eric Schmidt 支持的組織創立于 2023 年,總部位于美國加州舊金山市。由首席執行官 Sam Rodriques 和科學主管 Andrew White 聯合創立,其宏偉愿景是構建能夠自主進行科學研究的“AI 科學家”或 AI 系統,從而加速疾病治療方法的發現、氣候變化解決方案的探索以及其他推動人類社會發展的技術創新。
圖丨FutureHouse 主要團隊(來源:FutureHouse)
此前,FutureHouse 已經推出了一系列專門用于自動化科學發現過程中特定環節的 AI 智能體(AI Agent),例如用于文獻搜索與綜合的 Crow、Falcon 和 Owl,用于化學合成設計的 Phoenix,以及用于復雜數據分析的 Finch。而近期推出的 Robin 系統的突破在于,它成功地將這些獨立的 AI 智能體(在此次發布的版本中,主要是 Crow、Falcon 和 Finch)整合到一個統一的工作流程中,實現了整個科學研究過程中關鍵智力步驟的自動化。
Robin 系統通過協調其內部的 AI 智能體來工作,針對特定的人類疾病提出新的治療方法并進行臨床前驗證。其核心運作模式是一個包含假設生成、實驗設計和數據分析的迭代循環。科學家首先通過提供目標疾病的名稱來引導系統。隨后,Robin 利用 Crow 和 Falcon 等文獻搜索智能體進行廣泛的背景研究,并據此生成初步的科學假設。接著,系統會提出具體的實驗方案,包括選擇合適的體外檢測模型來驗證這些假設。
圖丨Robin 系統的架構(來源:arXiv)
不過,盡管 Robin 能夠自主生成實驗大綱,并完成所有假設的提出、實驗方案的選擇、數據分析以及研究手稿中主要圖表的繪制,但具體的實驗還是需要由人類研究員承擔。
實驗完成后,研究人員將原始或半處理數據上傳至系統,Robin 隨即便會部署像 Finch 這樣的數據分析智能體,對數據進行自主分析與解讀。Finch 擅長處理如 RNA 測序和流式細胞術等復雜實驗所產生的數據,它通過在 Jupyter notebook 中執行分析代碼,提供可解釋且能夠復現的分析結果與可視化圖表。
為了有效應對生物數據解釋本身固有的模糊性,以及語言智能體隨機性可能導致的分析結果差異,Robin 設計了可以啟動多個 Finch 分析軌跡的機制,讓每個軌跡獨立分析實驗數據,最終通過元分析綜合所有輸出,從而形成基于共識的可靠結論。
根據這些分析結果,Robin 會從中提煉出具有實際應用價值的科學見解,并將這些見解用于指導下一輪的治療假設生成,由此形成一個持續反饋和不斷優化的閉環研究系統。這個迭代循環將持續進行,直至研究人員最終篩選出令人滿意的新型候選藥物為止。
Robin 的首個發現:為干性年齡相關性黃斑變性找到新療法
為了驗證 Robin 系統的實際能力,FutureHouse 將其應用于尋找干性年齡相關性黃斑變性的潛在新療法。dAMD 是發達國家導致不可逆失明的主要原因,目前治療方案有限。僅在美國,就有約 150 萬人患有威脅視力的 dAMD,另有 60 萬人因此法定失明,且隨著人口老齡化,預計到 2050 年這一數字將增加近兩倍。
在針對 dAMD 的研究中,Robin 首先通過識別和審查 151 篇論文,提出了 10 種與 dAMD 相關的生物學機制進行檢測。在對疾病機制和相應實驗策略進行排序后,Robin 提出通過增強視網膜色素上皮 (RPE) 細胞的吞噬作用來治療 dAMD,并建議在流式細胞術檢測中測試藥物提高 RPE 細胞吞噬能力的效用。
(來源:arXiv)
隨后,Robin 利用 Crow 對大約 400 篇關于 RPE 吞噬作用和 dAMD 治療前景的論文進行了文獻綜述,并綜合結果提出了 30 種已有的候選藥物進行實驗測試。Falcon 智能體則為這些分子制作了綜合評估報告,并通過一個由大語言模型評判的錦標賽機制對它們進行了排名。
研究團隊選擇了排名前五的候選藥物進行實驗測試,包括 Exendin-4、Fingolimod、MFGE8、Y-27632 以及 AICAR 和 TUDCA 的組合。實驗采用了 pHrodo 微珠,這種微珠在溶酶體的低 pH 環境中會被熒光激活,從而可以通過流式細胞術檢測單細胞的吞噬作用。
實驗數據顯示,ROCK 抑制劑 Y-27632 在細胞培養中顯著增強了 RPE 的吞噬作用。這一發現與臨床前模型的研究結果一致,即 Y-27632 可以恢復 RPE 細胞的吞噬效率,證實了 Robin 基于文獻提出的候選方案的合理性。
為了更深入地探究其作用機制,Robin 接著提出進行一項 RNA 測序實驗,目的是確定 Y-27632 是否通過誘導特定的基因表達變化來增強 RPE 細胞的吞噬功能。FutureHouse 的研究團隊執行了該實驗,隨后 Finch 智能體對獲取的 RNA 測序數據進行了細致分析,結果發現 Y-27632 能夠顯著上調 ABCA1 基因的表達。
(來源:arXiv)
ABCA1 是 RPE 細胞中一種關鍵的脂質外排泵,對于健康的 RPE 功能至關重要,它能促進膽固醇和磷脂從質膜主動轉運到受體蛋白,然后再將其排出細胞。有趣的是,ABCA1 與先前已被確定為黃斑變性發病機制中治療靶點的 ABCA4 屬于同一轉運蛋白家族。
此外,ABCA1 的脂質受體——載脂蛋白 E (Apo-E),也已被確定為 dAMD 的潛在治療靶點。這些由 Robin 提出實驗、Finch 分析數據得出的機制性見解,不僅識別了有效的治療化合物,還揭示了疾病通路中原本可能未被探索的新分子靶點。
在對 Y-27632 進行 RNA 測序分析的同時,Robin 還進行了后續的候選藥物假設迭代。研究團隊對其中 10 種藥物進行了實驗測試,并將數據再次交由 Finch 分析。Finch 的分析結果顯示,利舒地爾 (ripasudil),一種在日本已獲批用于治療青光眼的 ROCK 抑制劑,其效果優于 Y-27632,與 DMSO 對照組相比,可使 RPE 細胞的吞噬作用增加 7.5 倍。盡管需要進一步在不同劑量和更長孵育時間下進行測試以獲得最終比較,但利舒地爾相對于 Y-27632 的初步優越表現,證明了 Robin 通過迭代實驗和反饋逐步完善治療假設的能力。
AI For Science 也需要一個“星際之門”
Robin 系統的成功應用,特別是在 dAMD 治療候選藥物的發現上,或將是 AI 驅動科學發現的一個新范式。它首次將基于文獻的假設生成與實驗數據分析整合到一個持續的反饋系統中,實現了科學過程中關鍵智力步驟的自動化。
FutureHouse 認為,盡管 Robin 最初應用于藥物研發領域,但其內置的 AI 智能體具有通用性,未來可應用于從材料科學到氣候技術等多個不同領域的廣泛發現。
為了推動該領域的進一步發展,FutureHouse 計劃在當地時間 5 月 27 日將 Robin 的代碼、數據和完整的智能體軌跡進行開源發布,希望通過這種簡單工作流程編排智能體的方法能激勵其他研究者構建自己的自動化發現系統。
然而,FutureHouse 的聯合創始人兼 CEO Sam Rodriques 在最近的采訪和此前的博客文章中也坦誠地指出了構建真正“AI 科學家”所面臨的挑戰。他認為,當前的 AI 系統,包括流行的聊天機器人如 ChatGPT 或 Claude,乃至此前走紅的 Sakana 的“AI 科學家”,雖然可以在文獻檢索和數據分析方面提供幫助,甚至生成一些初步的腳本和圖表,但這與真正的科學發現仍有距離。
圖丨相關博文(來源:Sam Rodriques)
Rodriques 強調,科學研究是一個高度開放性的問題,需要 AI 具備在無限的假設空間和觀察空間中有效導航的能力,并能產生真正新穎的、甚至是顛覆性的概念,而不僅僅是增量式的想法。目前,AI 在假設生成方面仍存在主要差距,尤其是在產生具有“反向思維”的、未經測試的新穎假設方面(甚至也有人質疑 Robin 系統此次的發現也并不新穎)。為此,FutureHouse 計劃訓練自己的“反向”推理模型,以期彌補這一不足。
(來源:X)
另一個關鍵挑戰在于 AI 與物理實驗的緊密結合。如何讓 AI 理解哪些實驗是可行的(構建“可供性模型”),如何評估實驗結果的可靠性,識別潛在的偏見或混淆因素,并有效地利用這些多模態證據(如圖像、測序數據等)來更新其對世界的認知,這些都是亟待解決的問題。
目前,實驗室機器人的靈巧性尚不足以完成許多精細的實驗操作,這成為了自動化科學研究的主要瓶頸之一。Rodriques 甚至呼吁政府支持一項類似“星際之門”的計劃,投入巨資(他提議至少 1000 億美元)來推動 AI 驅動的科學研究和實驗自動化。
此外,對 AI 科學家系統的準確性和可靠性進行穩健且可擴展的評估至關重要。FutureHouse 內部已經建立了擴展人工評估的基礎設施,并創建了 LAB-Bench,一個針對多種科學任務的開放評估集。同時,他也指出,不能期望大型語言模型在零樣本情境下總能表現良好,需要創建能夠模擬科學研究核心環節并提供高質量獎勵信號的環境,以便大規模訓練 AI 科學家智能體。這可能還需要強化學習領域的基礎性突破,以適應高度復雜和開放的環境。
就 Robin 系統本身而言,FutureHouse 也認識到其仍有持續發展的空間。例如,雖然 Robin 能生成實驗大綱,但未來的迭代版本旨在提供更詳細、精確且可執行的實驗方案,以最大限度地減少實驗室執行所需的人工轉譯。
在數據分析方面,其核心智能體 Finch 目前在很大程度上仍需依賴領域專家的精心設計的提示工程來確保產生可靠且高質量的分析結果;未來的發展方向是賦予 Finch 更強的自主性,使其能夠獨立生成分析提示,或至少能夠根據不同的數據模態智能調整現有提示,從而實現一個更為自主高效的科學發現流程。
最后,雖然 Robin 目前采用的是一種由大模型擔當裁判的“錦標賽”機制來篩選和提名治療相關的科學假設,但 FutureHouse 認為,未來的工作重點之一將是更好地將 AI 的假設生成和評估過程與人類頂尖科學家的專業判斷和直覺進行深度對齊與融合,以期能夠更穩定、更可靠地產生具有突破潛力的的高質量科學假設。
參考資料:
1.https://arxiv.org/pdf/2505.13400
2.https://www.linkedin.com/company/futurehouse/
3.https://techcrunch.com/2025/05/06/futurehouse-previews-an-ai-tool-for-data-driven-biology-discovery/
4.https://www.theinformation.com/articles/startup-building-ai-scientist?rc=qjiy7u
5.https://www.sam-rodriques.com/post/what-does-it-take-to-build-an-ai-scientist
6.https://x.com/SGRodriques/status/1925024623948902801
排版:初嘉實
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.