大香大香伊人在钱线久久,亚洲日韩欧美国产高清αv,日本强伦姧人妻久久影片,亚洲国产成人欧美在线观看

網易首頁 > 網易號 > 正文 申請入駐

沒想到,最Open的開源新模型,來自小紅書

0
分享至



機器之心報道

編輯:楊文

迄今為止行業最大的開源力度。

在大模型上向來低調的小紅書,昨天開源了首個自研大模型。

該模型名為 dots.llm1,是小紅書 hi lab(Humane Intelligence Lab,人文智能實驗室)團隊研發的文本大模型。

它的參數不算最大,總參數量 142B,激活參數 14B,是一款中等規模的 MoE(Mixture of Experts)模型,不過它仍在較小激活量下展現出了良好性能。



具體來說,在激活 14B 參數的情況下,dots.llm.inst 模型在中英文通用場景、數學、代碼、對齊任務上的表現亮眼,與 Qwen2.5-32B-Instruct、Qwen2.5-72B-Instruct 相比具備較強的競爭力。同時與 Qwen3-32B 相比,在中英文、數學、對齊任務上表現接近。



此外,該模型的開源力度可以說是「卷」到了行業天花板。

不僅開源了 dots.llm1.inst 模型讓開發者開箱即用,hi lab 團隊還貼心地開源了一系列 pretrain base 模型,包括預訓練第一階段中每經過 1T tokens 后所保存的 checkpoint,以及退火階段兩次訓練對應的模型 checkpoint、長文 base 模型。為了便于大家做 Continue Pretraining 和 Supervised Fine-tuning,hi lab 團隊還詳細介紹了 lr schedule 和 batch size 等信息。

真?從頭開到尾,幾乎每個細節都能拿來「二創」。

自 2023 年起,小紅書就開始投入基礎模型研發,本次開源正是其主動與技術社區展開對話的重要一步。

模型地址:

  • https://huggingface.co/rednote-hilab
  • https://github.com/rednote-hilab/dots.llm1

一手實測

模型好不好用,還得看多維度的任務實測表現。接下來,我們就把小紅書的 dots 模型拉上「考場」,圍繞問答、寫作、編碼等方面展開一場全方位的測評。

先來考考它的中文理解能力:大舅去二舅家找三舅說四舅被五舅騙去六舅家偷七舅放在八舅柜子里九舅借給十舅發給十一舅工資的 1000 元,請問誰才是小偷?

這道題目像繞口令一樣七拐八繞,但 dots 并沒有被迷惑,它通過逐步拆解、分析句子結構找出「偷」這個動作的執行者,最終給出正確答案。



弱智吧以幽默荒誕的段子而著稱,自大模型爆火以來,「弱智吧」就成了檢測大模型理解能力的標準之一。

比如這道經典問題:班房又叫牢房,為什么上班不叫坐牢?dots 先從語言的歷史演變、二者的區別給出正兒八經的回答,然后玩起了梗,甚至還附上表情包。



不僅如此,dots 還很懂那些奇奇怪怪的諧音梗。



再來看看 dots 的文本寫作能力。它以「老子今天要上班了」寫了一首藏頭詩,還挺有「活人味」,用一組清晨圖景,把「打工人」的疲憊感刻畫得相當接地氣。



此外,它的編碼能力也還不錯,我們讓它創建一個響應式的城市天氣卡片組件,使用 HTML、CSS 和 JavaScript 實現。領到任務后,dots 二話不說就輸出代碼。

不得不說,它制作的動態卡片配色蠻舒服,并集齊了城市、日期、天氣、溫度、濕度以及風速等各種要素,點擊右下角的按鈕還能絲滑切換城市。



技術解讀:高效 MoE 架構下的「以小搏大」

作為小紅書 hi lab 首次開源的 MoE 模型,dots.llm1 并不一味追求「大力出奇跡」,而是在訓練資源受限的前提下,通過更干凈更優質的數據、更高效的訓練方式來實現「以小搏大」的效果。



鏈接:https://github.com/rednote-hilab/dots.llm1/blob/main/dots1_tech_report.pdf

預訓練數據:不靠合成也能「硬剛」

在大模型訓練中,數據的質量是決定模型上限的關鍵因素之一。dots.llm1 使用了 11.2T 高質量 token 數據進行預訓練,而這些數據主要來源于 Common Crawl 和自有 Spider 抓取到的 web 數據。與很多開源模型直接使用粗粒度數據不同,hi lab 團隊在數據處理上非常「較真」,拒絕低質或虛構內容,通過三道「工序」把控數據質量:

首先是 web 文檔準備,把 web HTML 數據用 URL 過濾方式刪除黃賭毒等內容,再利用團隊優化后的 trafilatura 軟件包提取 HTML 正文內容,最后進行語種過濾和 MD5 去重得到 web document。

接著是規則處理,參考 RefinedWeb 和 Gopher 的方案進行數據清洗和過濾操作,引入 MinHash 和行級別去重策略,有效過濾廣告、導航欄等噪聲文本。

最后是模型處理,通過多個模型協同判斷數據的網頁類型、質量、語義重復性及結構均衡性,在確保文本安全、準確的同時提高知識類內容的占比。

經過上述處理流程,hi lab 團隊得到一份高質量的預訓練數據,并經過人工校驗和實驗驗證該數據質量顯著優于開源 TxT360 數據。



值得注意的是,dots.llm1 未使用合成語料,這也從側面表明即便不依賴大規模數據合成,也可訓練出足夠強大的文本模型。但該團隊也表示,數據合成作為提升數據多樣性和模型能力的手段,仍是未來值得探索的重要方向。

訓練效率:計算與通信高度并行

在 MoE 模型的訓練過程中,EP rank 之間的 A2A 通信在端到端時間中占據了相當大比重,嚴重影響了訓練效率,特別是對于 Fine-grained MoE Model,EP Size 會比較大,跨機通信基本無法避免。

為了解決這一挑戰,hi lab 與 NVIDIA 中國團隊合作,提出了一套頗具工程創新意義的解決方案:interleaved 1F1B with A2A overlap。該方案的核心就是讓 EP A2A 通信盡可能和計算 overlap,用計算來掩蓋通信的時間,進而提升訓練效率。

具體來說,他們通過將穩態的 1F1B stage 中第一個 micro batch 的 fprop 提前到 warmup stage,即 warmup step + 1,就可以在 interleaved 1F1B 實現 1F1B 穩態階段不同 micro batch 前反向之間的 EP A2A 與計算的 overlap。



同時,hi lab 團隊還對 Grouped GEMM 進行了優化實現。他們將 M_i(專家 i 的 token 段)對齊到一個固定的塊大小。這個固定塊大小必須是異步 warpgroup 級別矩陣乘加(WGMMA,即 wgmma.mma async)指令中 tile 形狀修飾符 mMnNkK 的 M 的整數倍。

通過這種設計,單個 threadblock 中的所有 warpgroups 都采用統一的 tiling,且由該 threadblock 處理的整個 token 段(Mi)必定屬于同一位專家,這使得調度過程與普通 GEMM 操作非常相似。

經過實測驗證,與 NVIDIA Transformer Engine 中的 Grouped GEMM API 相比,hi lab 實現的算子在前向計算中平均提升了 14.00%,在反向計算中平均提升了 6.68%,充分證明了這套解決方案的有效性和實用價值。



模型設計與訓練:WSD 調度下的漸進式優化

在模型設計層面,dots.llm1 是一個基于 Decoder-only Transformer 的 MoE 模型,其整體架構設計主要借鑒了 DeepSeek 系列的思路與經驗。



在訓練策略方面,該模型采用了 WSD 學習率調度方式,整個訓練過程主要分為穩定訓練和退火優化兩個階段。

在穩定訓練階段,模型保持 3e-4 的學習率,使用 10T token 語料進行訓練。為了提升訓練效率,在這個階段先后兩次增加 batch size,從 64M 逐步增大至 128M,整個訓練過程非常穩定,沒有出現需要回滾的 loss spike。

隨后進入學習率退火階段,分兩個 stage 訓練 1.2T token 語料。其中 stage1 期間模型學習率由 3e-4 退火降至 3e-5,數據方面強化推理和知識類型語料,共訓練 1T token;stage2 期間模型學習率由 3e-5 退火降至 1e-5,數據方面提升 math 和 code 語料占比,共訓練 200B token。



Post-train:高質量、多場景、結構化調教策略

在完成高質量的預訓練之后,dots.llm1 通過兩階段的監督微調進一步打磨模型的理解力與執行力。

hi lab 團隊精心篩選了約 40 萬條高質量指令數據,涵蓋多輪對話、知識問答、復雜指令遵循、數學推理與代碼生成等五大核心場景。

  • 多輪對話方面:團隊將社區開源的中英對話數據與內部標注的高質量中文指令融合,并借助教師模型優化低質量回答,從而提升整體對話的連貫性和準確性;
  • 知識問答模塊:引入了包含事實性知識與閱讀理解的數據集,讓模型能夠更好地理解和回答各類知識性問題;
  • 復雜指令遵循環節:團隊特別設計了伴隨條件約束的指令數據,并過濾不遵循約束的回復;
  • 數學與代碼領域:微調數據則經過驗證器驗證,確保獲得最高質量的監督信號。

整個微調過程分為兩個階段:

  • 第一階段是對全量數據進行兩輪基礎訓練,過程中引入了過采樣、動態學習率調整、多輪對話拼接等技術,初步釋放模型潛力;
  • 第二階段則專注于「重點突破」。在數學與代碼等對推理能力要求更高的任務上,團隊采用了拒絕采樣微調(RFT)策略,結合驗證器篩選高置信度重要樣本,進一步提升模型的推理性能。

最終評測結果也令人眼前一亮:即便僅激活了 14B 參數,dots.llm1.inst 在中英文理解、數學、代碼生成、對齊等任務中依然表現出色,具備與 Qwen2.5-32B-Instruct、甚至 Qwen2.5-72B-Instruct 一較高下的實力。在對比更先進的 Qwen3-32B 時,dots.llm1.inst 也在多個任務上展現出相似甚至更強的性能。

結語

在 HuggingFace 的熱門開源模型榜單上,中國模型的身影已占據半壁江山,開源正逐漸成為中國大模型團隊的集體共識。

此次 dots.llm1 的開源,不僅是小紅書 hi lab 團隊的一次技術成果展示,也是一種路線選擇的「表態」—— 相比于閉門修煉,他們更愿意走入江湖與高手交流。在開發者眼中,這意味著又多了一個值得信賴的模型基座;而對 hi lab 而言,來自社區的微調成果也將反哺基模,為模型注入更多可能性。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
批評蘇超?北京日報用“家長式”口吻教育蘇超,說把足球娛樂化!

批評蘇超?北京日報用“家長式”口吻教育蘇超,說把足球娛樂化!

開成運動會
2025-06-14 17:52:33
太離譜了,內鬼把伊朗空軍指揮官叫來開會,然后以軍戰機一鍋端

太離譜了,內鬼把伊朗空軍指揮官叫來開會,然后以軍戰機一鍋端

三叔的裝備空間
2025-06-14 12:39:58
騎電動車買菜,遭風箏線割喉!當事人:如果再快點,人就不在了

騎電動車買菜,遭風箏線割喉!當事人:如果再快點,人就不在了

瀟湘晨報
2025-06-15 09:31:05
難以置信!武漢地鐵一美女沒給抱著孩子的媽媽讓座,乘客發帖怒斥

難以置信!武漢地鐵一美女沒給抱著孩子的媽媽讓座,乘客發帖怒斥

火山詩話
2025-06-15 09:58:05
總決賽G4裁判報告:最后2分鐘無錯漏判 名嘴吐槽福斯特吹罰太糟糕

總決賽G4裁判報告:最后2分鐘無錯漏判 名嘴吐槽福斯特吹罰太糟糕

羅說NBA
2025-06-15 07:30:12
伊朗最高領袖高級顧問因傷勢過重離世!美伊核談判取消,以總理專機飛去了希臘!沖突引爆油價,油運、集運會受到什么影響?

伊朗最高領袖高級顧問因傷勢過重離世!美伊核談判取消,以總理專機飛去了希臘!沖突引爆油價,油運、集運會受到什么影響?

每日經濟新聞
2025-06-15 01:26:06
太陽報:沃克點了340英鎊的中餐,包括105英鎊的脆皮鴨

太陽報:沃克點了340英鎊的中餐,包括105英鎊的脆皮鴨

懂球帝
2025-06-15 10:24:15
檢察系統被李在明連根拔起,手段狠辣遠超文在寅,大家都小看他了

檢察系統被李在明連根拔起,手段狠辣遠超文在寅,大家都小看他了

今墨緣
2025-06-15 07:10:40
伊朗導彈密集打擊以色列,高超聲速導彈表現令人矚目

伊朗導彈密集打擊以色列,高超聲速導彈表現令人矚目

澎湃新聞
2025-06-15 09:23:04
馬拉松中簽了,酒店卻住不起了…

馬拉松中簽了,酒店卻住不起了…

馬拉松跑步健身
2025-06-14 16:53:32
東北大學不再采用林徽因設計的校徽,新校徽被調侃像“農夫山泉”

東北大學不再采用林徽因設計的校徽,新校徽被調侃像“農夫山泉”

火山詩話
2025-06-15 06:54:48
遭伊朗導彈襲擊 以色列一城市大片別墅變廢墟

遭伊朗導彈襲擊 以色列一城市大片別墅變廢墟

大象新聞
2025-06-15 11:35:04
馬斯克吐槽:香港法官佩戴過時的假發,像是在清倉甩賣時買的!網友:28年了辮子都還沒剪掉

馬斯克吐槽:香港法官佩戴過時的假發,像是在清倉甩賣時買的!網友:28年了辮子都還沒剪掉

大白聊IT
2025-06-14 22:41:29
奧萊報:因世界杯恩怨,梅西拒絕在球員通道理睬前皇馬球員佩佩

奧萊報:因世界杯恩怨,梅西拒絕在球員通道理睬前皇馬球員佩佩

雷速體育
2025-06-15 10:46:54
國防大學的教授也是一個水貨

國防大學的教授也是一個水貨

回旋鏢
2025-06-14 15:59:57
以色列國家安全總局局長巴爾宣布辭職

以色列國家安全總局局長巴爾宣布辭職

環球網資訊
2025-06-15 06:10:24
伊朗這個大內奸不除,很難取得勝利

伊朗這個大內奸不除,很難取得勝利

海格講
2025-06-15 05:45:05
揚州人硬氣!千萬粉絲大V因沒門票被關在門外,網友們炸開鍋了…

揚州人硬氣!千萬粉絲大V因沒門票被關在門外,網友們炸開鍋了…

火山詩話
2025-06-15 10:41:12
印度曝光!中印在藏南交火,中國軍人一個動作感動14億國人

印度曝光!中印在藏南交火,中國軍人一個動作感動14億國人

Ck的蜜糖
2025-06-15 01:51:14
1死4傷!男子鳴笛遭圍堵駕車駛離,目擊者曝完整經過,太無奈了!

1死4傷!男子鳴笛遭圍堵駕車駛離,目擊者曝完整經過,太無奈了!

古希臘掌管松餅的神
2025-06-15 10:19:39
2025-06-15 13:20:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10640文章數 142338關注度
往期回顧 全部

科技要聞

華為Pura80系列首銷:不再嚴重缺貨

頭條要聞

義烏商家賣娃衣:做的非LABUBU娃衣 只適用于15cm玩偶

頭條要聞

義烏商家賣娃衣:做的非LABUBU娃衣 只適用于15cm玩偶

體育要聞

裁判可以噴,但也從步行者自身找找問題?

娛樂要聞

鳳凰傳奇曾毅塌房?網友:別連累玲花

財經要聞

以伊沖突持續升級,對全球市場影響多大

汽車要聞

長城為了拿環塔冠軍有多拼?魏建軍在下一盤大棋!

態度原創

游戲
健康
旅游
房產
手機

《馬里奧賽車世界》大金剛服裝太少 玩家猜測會有DLC

呼吸科專家破解呼吸道九大謠言!

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

房產要聞

又一城購房補貼!買房就發錢,正在海南樓市瘋狂擴散!

手機要聞

科技昨夜今晨0615:華為上線新版Petal One付費會員

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 精品国产乱码久久久久久乱码| 88国产精品视频一区二区三区| 色综合天天天天综合狠狠爱| 久久久www影院人成_免费| 色悠久久久久综合网国产| 国产精彩乱子真实视频| 国产特级毛片aaaaaa视频| 亚洲国产区男人本色在线观看| 欧洲熟妇色xxxx欧美老妇多毛网站| 亚洲成av人网站在线播放| 亚洲中文字幕无码中字| 色综合色天天久久婷婷基地| 国产精品怡红院在线观看| 亚洲乱码中文论理电影| 日本一二免费不卡区| 视频一区二区无码制服师生| 欧美人和黑人牲交网站上线| 国产成人涩涩涩视频在线观看| 中文无码不卡人妻在线看| 麻豆国产原创视频在线播放| 精品国产一区二区三区av色诱| 国产精品理论片| 亚洲精品无码不卡av| 天天爽夜夜爽人人爽从早干到睌| 国产成人无码综合亚洲日韩| 欧美精品一区二区三区在线| 国产亚洲精品一区二区在线观看| 国内高清久久久久久| 亚洲日韩日本中文在线| 日韩人妻一区二区三区免费| 亚洲 欧美精品suv| 自慰系列无码专区| 久热这里只有精品99在线观看| 性色a∨精品高清在线观看| 一区二区三区内射美女毛片| 日韩视频无码中字免费观| 精品视频一区二区三区在线观看| 美女啪啪网站又黄又免费| 亚洲成av人片天堂网无码| 国产女人高潮叫床免费视频| 丰满大码的熟女在线视频|