該工作由字節跳動 ByteBrain 團隊 × 清華大學合作完成。第一作者為清華大學三年級博士生謝哲,主要研究方向為時序多模態 LLM、異常檢測和根因定位。第二作者和第三作者分別為李則言和何曉,均來自字節跳動。通訊作者分別為字節跳動研究科學家張鐵贏和清華大學計算機系副教授裴丹。
近年來,多模態大語言模型(MLLM)發展迅速,并在圖像、視頻、音頻等領域取得了突破性成果。然而,相較于這些研究較為成熟的模態,時間序列這一類型的數據與大模型結合的系統研究卻較為匱乏。
盡管已經有 TimeLLM 等工作嘗試將 LLM 應用于時序任務,但這些研究大多局限于預測類任務,無法滿足更復雜的理解與推理需求。隨著 LLM 在 AIOps、金融等需要處理時序數據的應用場景中應用愈發廣泛,時序問答、推理的能力已成為多模態智能系統的一項基礎能力需求。
為此,我們提出了 ChatTS,一種原生支持多變量時序問答與推理的多模態 LLM。ChatTS 引來了HuggingFace 產品負責人 Victor Mustar,以及 SparkNLP 項目負責人 Maziyar Panahi等人的轉發和點贊:
ChatTS 論文已經成功入選數據庫頂級會議 VLDB 2025。
論文標題:ChatTS: Aligning Time Series with LLMs via Synthetic Data for Enhanced Understanding and Reasoning
論文 arXiv 鏈接:https://arxiv.org/pdf/2412.03104
ChatTS 代碼和數據集:https://github.com/NetmanAIOps/ChatTS
模型參數:https://huggingface.co/bytedance-research/ChatTS-14B
什么是時序問答任務
傳統的時間序列分析方法多基于統計模型或 AI 模型,而這些方法通常需要大量任務特定的訓練、特定的數據預處理和結構化的輸入輸出,缺乏通用性和可解釋性。而 LLM 的強語言建模能力和泛化推理能力,為「用自然語言理解時間序列」提供了可能。
然而,目前主流的 LLM 并不能直接處理原始的時間序列數組數據,現有工作要么將時間序列轉成文本、圖像輸入,要么依賴 agent 工具進行間接分析,但都存在不同程度的限制。
因此,我們思考,是否可以構建一種「時間序列原生」的多模態 LLM,使其像處理圖像一樣,能夠原生地理解時間序列的形狀、波動與語義含義,并進行進一步的問答和推理?
構建時間序列多模態大模型面臨諸多挑戰
數據稀缺。與圖文、語音等領域不同,時間序列+文本的對齊數據非常有限。
時間序列具有高度結構性。時序包含豐富的趨勢、周期、局部波動、噪聲等形態特征。
時間序列輸入往往是多變量、不同長度的。變量之間的關系極具分析價值,但也加大了理解難度。
現有的評估基準未覆蓋時間序列多模態建模任務,這也為訓練和評估增加了難度。
現有方法
我們將現有嘗試將 LLM 應用于時間序列的方式歸為三類:文本化方法、圖像化方法與 agent 方法。
文本化(Text-Based)方法最為直接,即將時間序列值編碼成長文本輸入 LLM。其可能存在顯著的上下文長度限制,且無法處理多變量場景。
圖像化(Vision-Based)方法借助可視化圖像輸入視覺大模型,但面臨圖像細節丟失的問題。
Agent 方法(Agent-Based)利用 LLM 調用工具獲取特征,但該方式嚴重依賴工具準確性、推理鏈條極長且容易出現幻覺。
ChatTS: 基于合成數據訓練的時序多模態 LLM
面對時間序列與語言對齊數據的極度匱乏問題,我們從根本上摒棄了依賴真實數據標注的路徑,而是選擇「純合成驅動」的方式,設計出一個端到端的數據生成、模型訓練框架。
一、屬性驅動(Attribute-Based)的時間序列生成
我們定義了一套詳細的時間序列屬性體系,這些屬性具有明確的語義與參數,構成了「屬性池」。每個時間序列由若干屬性組合生成,并對應一段高質量自然語言描述。這種組合方式不僅確保了生成時間序列的多樣性與真實性,還能精確對應語言文本的細節表達,避免了傳統「圖文描述不符」的問題。
二、Time Series Evol-Instruct
僅有靜態屬性描述還不夠,我們還需訓練模型掌握復雜的提問、比較與推理能力。我們提出 TSEvol,該方法以一組基礎 Q&A 為種子,依托已有 attribute pools,不斷演化出多種新問題形式,優化復雜推理場景下的模型能力。
三、原生多模態模型設計
模型結構方面,我們基于 Qwen2.5-14B-Instruct,設計了一個時間序列原生感知的輸入結構。時間序列被切分為小 patch,并用輕量級 MLP 編碼,嵌入到原始文本上下文中。
與之配套,我們設計了「數值保值歸一化機制」。考慮到原始數值在實際業務中非常重要(如最大 CPU 使用率),我們在對序列進行 0-1 歸一化時,同時將歸一化參數以文本形式保留進 prompt,使模型既能學習序列形態,又不丟失絕對數值的意義。
ChatTS 案例展示
我們做了幾個基于真實時間序列的 Case Studies。可以發現,ChatTS 不僅能對多變量時序的形態進行分析,還能輸出時序中波動區間的位置與幅度。ChatTS 還能夠對沒有見過的時序波動模式進行識別,并基于自己的理解給它「起名字」。
此外,ChatTS 的使用場景非常靈活,無需精確的 prompt 輸入也能準確響應。例如,我們讓它分析時序中的所有「事件」,ChatTS 準確地 get 到了我們的意思,并自動提取出時序中的所有的異常波動。此外,ChatTS 還能實際應用結合,例如結合專家知識,對故障去進行初步的診斷和分析。
評估體系
我們一共收集了 3 個數據集用于評估,包含了 real-world 與合成的時序數據,評測集覆蓋了對齊任務與推理任務兩大類,共 12 子類的問題類型,以全面評估對比模型性能。
一、對齊任務評估:全方位精準識別時間序列屬性
我們將 ChatTS 模型與基于 Text、Vision 和 Agent 的模型進行對比。結果顯示,ChatTS 在所有指標上均大幅超越 GPT-4o 及其他基線方法,分類任務 F1 提升 46%–75%,數值任務相對準確率提升超過 80%。
在多變量任務上,ChatTS 優勢更為顯著:ChatTS 能一次性感知多個變量間的變化趨勢與關系,且 token 成本極低,顯示出極強的實用性與高效性。
二、推理任務評估:從歸納到因果,全面提升時序理解深度
推理任務包括四類:歸納、演繹、因果、比較。實驗結果顯示,ChatTS 在所有推理任務上均優于基線,平均提升 25.8%。
思考與展望
ChatTS 展示了一個全新的范式:通過可控合成數據,訓練具備真實理解能力的多模態大模型。我們從零出發,僅使用合成數據訓練出了一個在真實任務中表現優異的模型,這說明「數據生成 + 模態對齊」的范式具備高度潛力。
當前,ChatTS 聚焦在時序分析的理解與推理任務,未來我們可以拓展其能力至更高階任務(例如因果推理、根因分析),甚至結合外部知識庫、專家規則,實現更強的決策支持能力。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.