機器之心報道
機器之心編輯部
開源社區的人應該對 vLLM 不陌生,它是一個由加州大學伯克利分校團隊開發的高性能、開源 LLM 推理和服務引擎,核心目標是提升 LLM 的推理速度(吞吐量)和資源利用率(尤其是內存),同時兼容 Hugging Face 等流行模型庫。
簡單來說,vLLM 能讓 GPT、Mistral、LLaMA 等主流模型系列跑得更快、消耗更少資源,取得這些效果的關鍵是其創新的注意力機制實現方案 ——PagedAttention。
近日,DeepSeek AI 研究者、深度學習系統工程師俞星凱從零開始構建了一個輕量級 vLLM 實現 ——Nano-vLLM,將代碼簡化到了 1200 行
目前,該項目在 GitHub 上收獲了 200 多的 Star。
GitHub 地址:https://github.com/GeeeekExplorer/nano-vllm/tree/main
具體來講,Nano-vLLM 具有以下三個核心功能:
一是,Fase 離線推理。推理速度與 vLLM 相當。
二是,易讀代碼庫。實現非常簡潔,Python 代碼減少到了 1200 行以下。
三是,優化套件。提供 Prefix 緩存、Torch 編譯、CUDA 計算圖等功能。
俞星凱在基準測試中采用了以下測試配置:
- 硬件:RTX 4070
- 模型:Qwen3-0.6B
- 總請求:256 個序列
- 輸入長度:100–1024 tokens 之間隨機采樣
- 輸出長度:100–1024 tokens 之間隨機采樣
基準測試結果如下表所示,Nano-vLLM 與 vLLM 的輸出 token 相同,時間略長,推理速度(吞吐量)稍遜一點點。整體而言,二者表現相當。
作者簡介
Nano-vLLM 開發者俞星凱目前就職于 DeepSeek,參與過 DeepSeek-V3 和 DeepSeek-R1 的開發工作。
有意思的是,根據其 GitHub 主頁,他還曾開發過一個植物大戰僵尸 Qt 版,該項目也已經收獲了 270 多星。此外,由于畢業于南京大學,他還曾參與了不少南京大學的計算機項目,包括南京大學計算機圖形學繪圖系統、南京大學分布式系統 Raft 算法最簡實現、南京大學操作系統 OSLab 等。
而根據其 LinkedIn 頁面可知,他曾先后在騰訊、幻方(DeepSeek 母公司)和字節跳動實習過。2023 年后入職 DeepSeek 成為深度學習系統工程師。
你是 vLLM 用戶嗎?會考慮嘗試 Nano-vLLM 嗎?
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.