機器之心報道
編輯:楊文
迄今為止行業最大的開源力度。
在大模型上向來低調的小紅書,昨天開源了首個自研大模型。
該模型名為 dots.llm1,是小紅書 hi lab(Humane Intelligence Lab,人文智能實驗室)團隊研發的文本大模型。
它的參數不算最大,總參數量 142B,激活參數 14B,是一款中等規模的 MoE(Mixture of Experts)模型,不過它仍在較小激活量下展現出了良好性能。
具體來說,在激活 14B 參數的情況下,dots.llm.inst 模型在中英文通用場景、數學、代碼、對齊任務上的表現亮眼,與 Qwen2.5-32B-Instruct、Qwen2.5-72B-Instruct 相比具備較強的競爭力。同時與 Qwen3-32B 相比,在中英文、數學、對齊任務上表現接近。
此外,該模型的開源力度可以說是「卷」到了行業天花板。
不僅開源了 dots.llm1.inst 模型讓開發者開箱即用,hi lab 團隊還貼心地開源了一系列 pretrain base 模型,包括預訓練第一階段中每經過 1T tokens 后所保存的 checkpoint,以及退火階段兩次訓練對應的模型 checkpoint、長文 base 模型。為了便于大家做 Continue Pretraining 和 Supervised Fine-tuning,hi lab 團隊還詳細介紹了 lr schedule 和 batch size 等信息。
真?從頭開到尾,幾乎每個細節都能拿來「二創」。
自 2023 年起,小紅書就開始投入基礎模型研發,本次開源正是其主動與技術社區展開對話的重要一步。
模型地址:
- https://huggingface.co/rednote-hilab
- https://github.com/rednote-hilab/dots.llm1
一手實測
模型好不好用,還得看多維度的任務實測表現。接下來,我們就把小紅書的 dots 模型拉上「考場」,圍繞問答、寫作、編碼等方面展開一場全方位的測評。
先來考考它的中文理解能力:大舅去二舅家找三舅說四舅被五舅騙去六舅家偷七舅放在八舅柜子里九舅借給十舅發給十一舅工資的 1000 元,請問誰才是小偷?
這道題目像繞口令一樣七拐八繞,但 dots 并沒有被迷惑,它通過逐步拆解、分析句子結構找出「偷」這個動作的執行者,最終給出正確答案。
弱智吧以幽默荒誕的段子而著稱,自大模型爆火以來,「弱智吧」就成了檢測大模型理解能力的標準之一。
比如這道經典問題:班房又叫牢房,為什么上班不叫坐牢?dots 先從語言的歷史演變、二者的區別給出正兒八經的回答,然后玩起了梗,甚至還附上表情包。
不僅如此,dots 還很懂那些奇奇怪怪的諧音梗。
再來看看 dots 的文本寫作能力。它以「老子今天要上班了」寫了一首藏頭詩,還挺有「活人味」,用一組清晨圖景,把「打工人」的疲憊感刻畫得相當接地氣。
此外,它的編碼能力也還不錯,我們讓它創建一個響應式的城市天氣卡片組件,使用 HTML、CSS 和 JavaScript 實現。領到任務后,dots 二話不說就輸出代碼。
不得不說,它制作的動態卡片配色蠻舒服,并集齊了城市、日期、天氣、溫度、濕度以及風速等各種要素,點擊右下角的按鈕還能絲滑切換城市。
技術解讀:高效 MoE 架構下的「以小搏大」
作為小紅書 hi lab 首次開源的 MoE 模型,dots.llm1 并不一味追求「大力出奇跡」,而是在訓練資源受限的前提下,通過更干凈更優質的數據、更高效的訓練方式來實現「以小搏大」的效果。
鏈接:https://github.com/rednote-hilab/dots.llm1/blob/main/dots1_tech_report.pdf
預訓練數據:不靠合成也能「硬剛」
在大模型訓練中,數據的質量是決定模型上限的關鍵因素之一。dots.llm1 使用了 11.2T 高質量 token 數據進行預訓練,而這些數據主要來源于 Common Crawl 和自有 Spider 抓取到的 web 數據。與很多開源模型直接使用粗粒度數據不同,hi lab 團隊在數據處理上非常「較真」,拒絕低質或虛構內容,通過三道「工序」把控數據質量:
首先是 web 文檔準備,把 web HTML 數據用 URL 過濾方式刪除黃賭毒等內容,再利用團隊優化后的 trafilatura 軟件包提取 HTML 正文內容,最后進行語種過濾和 MD5 去重得到 web document。
接著是規則處理,參考 RefinedWeb 和 Gopher 的方案進行數據清洗和過濾操作,引入 MinHash 和行級別去重策略,有效過濾廣告、導航欄等噪聲文本。
最后是模型處理,通過多個模型協同判斷數據的網頁類型、質量、語義重復性及結構均衡性,在確保文本安全、準確的同時提高知識類內容的占比。
經過上述處理流程,hi lab 團隊得到一份高質量的預訓練數據,并經過人工校驗和實驗驗證該數據質量顯著優于開源 TxT360 數據。
值得注意的是,dots.llm1 未使用合成語料,這也從側面表明即便不依賴大規模數據合成,也可訓練出足夠強大的文本模型。但該團隊也表示,數據合成作為提升數據多樣性和模型能力的手段,仍是未來值得探索的重要方向。
訓練效率:計算與通信高度并行
在 MoE 模型的訓練過程中,EP rank 之間的 A2A 通信在端到端時間中占據了相當大比重,嚴重影響了訓練效率,特別是對于 Fine-grained MoE Model,EP Size 會比較大,跨機通信基本無法避免。
為了解決這一挑戰,hi lab 與 NVIDIA 中國團隊合作,提出了一套頗具工程創新意義的解決方案:interleaved 1F1B with A2A overlap。該方案的核心就是讓 EP A2A 通信盡可能和計算 overlap,用計算來掩蓋通信的時間,進而提升訓練效率。
具體來說,他們通過將穩態的 1F1B stage 中第一個 micro batch 的 fprop 提前到 warmup stage,即 warmup step + 1,就可以在 interleaved 1F1B 實現 1F1B 穩態階段不同 micro batch 前反向之間的 EP A2A 與計算的 overlap。
同時,hi lab 團隊還對 Grouped GEMM 進行了優化實現。他們將 M_i(專家 i 的 token 段)對齊到一個固定的塊大小。這個固定塊大小必須是異步 warpgroup 級別矩陣乘加(WGMMA,即 wgmma.mma async)指令中 tile 形狀修飾符 mMnNkK 的 M 的整數倍。
通過這種設計,單個 threadblock 中的所有 warpgroups 都采用統一的 tiling,且由該 threadblock 處理的整個 token 段(Mi)必定屬于同一位專家,這使得調度過程與普通 GEMM 操作非常相似。
經過實測驗證,與 NVIDIA Transformer Engine 中的 Grouped GEMM API 相比,hi lab 實現的算子在前向計算中平均提升了 14.00%,在反向計算中平均提升了 6.68%,充分證明了這套解決方案的有效性和實用價值。
模型設計與訓練:WSD 調度下的漸進式優化
在模型設計層面,dots.llm1 是一個基于 Decoder-only Transformer 的 MoE 模型,其整體架構設計主要借鑒了 DeepSeek 系列的思路與經驗。
在訓練策略方面,該模型采用了 WSD 學習率調度方式,整個訓練過程主要分為穩定訓練和退火優化兩個階段。
在穩定訓練階段,模型保持 3e-4 的學習率,使用 10T token 語料進行訓練。為了提升訓練效率,在這個階段先后兩次增加 batch size,從 64M 逐步增大至 128M,整個訓練過程非常穩定,沒有出現需要回滾的 loss spike。
隨后進入學習率退火階段,分兩個 stage 訓練 1.2T token 語料。其中 stage1 期間模型學習率由 3e-4 退火降至 3e-5,數據方面強化推理和知識類型語料,共訓練 1T token;stage2 期間模型學習率由 3e-5 退火降至 1e-5,數據方面提升 math 和 code 語料占比,共訓練 200B token。
Post-train:高質量、多場景、結構化調教策略
在完成高質量的預訓練之后,dots.llm1 通過兩階段的監督微調進一步打磨模型的理解力與執行力。
hi lab 團隊精心篩選了約 40 萬條高質量指令數據,涵蓋多輪對話、知識問答、復雜指令遵循、數學推理與代碼生成等五大核心場景。
- 多輪對話方面:團隊將社區開源的中英對話數據與內部標注的高質量中文指令融合,并借助教師模型優化低質量回答,從而提升整體對話的連貫性和準確性;
- 知識問答模塊:引入了包含事實性知識與閱讀理解的數據集,讓模型能夠更好地理解和回答各類知識性問題;
- 復雜指令遵循環節:團隊特別設計了伴隨條件約束的指令數據,并過濾不遵循約束的回復;
- 數學與代碼領域:微調數據則經過驗證器驗證,確保獲得最高質量的監督信號。
整個微調過程分為兩個階段:
- 第一階段是對全量數據進行兩輪基礎訓練,過程中引入了過采樣、動態學習率調整、多輪對話拼接等技術,初步釋放模型潛力;
- 第二階段則專注于「重點突破」。在數學與代碼等對推理能力要求更高的任務上,團隊采用了拒絕采樣微調(RFT)策略,結合驗證器篩選高置信度重要樣本,進一步提升模型的推理性能。
最終評測結果也令人眼前一亮:即便僅激活了 14B 參數,dots.llm1.inst 在中英文理解、數學、代碼生成、對齊等任務中依然表現出色,具備與 Qwen2.5-32B-Instruct、甚至 Qwen2.5-72B-Instruct 一較高下的實力。在對比更先進的 Qwen3-32B 時,dots.llm1.inst 也在多個任務上展現出相似甚至更強的性能。
結語
在 HuggingFace 的熱門開源模型榜單上,中國模型的身影已占據半壁江山,開源正逐漸成為中國大模型團隊的集體共識。
此次 dots.llm1 的開源,不僅是小紅書 hi lab 團隊的一次技術成果展示,也是一種路線選擇的「表態」—— 相比于閉門修煉,他們更愿意走入江湖與高手交流。在開發者眼中,這意味著又多了一個值得信賴的模型基座;而對 hi lab 而言,來自社區的微調成果也將反哺基模,為模型注入更多可能性。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.