北京商報訊(記者 趙述評)6月12日,夸克發(fā)布國內(nèi)首個為高考志愿填報場景開發(fā)的高考志愿大模型,并同步上線"高考深度搜索"、"志愿報告"、"智能選志愿"三大核心功能。該模型具備專家級決策能力,能夠為每位考生提供精準、個性化的志愿填報服務。
據(jù)了解,高考志愿大模型驅(qū)動的夸克"志愿報告"以Agent方式運行,目前已開放試用?;?任務規(guī)劃—執(zhí)行—檢查—反思"的鏈式推理流程,夸克志愿報告會自動輸出涵蓋沖穩(wěn)保策略、志愿表、院校專業(yè)推薦等內(nèi)容的完整報告。
每輪執(zhí)行結(jié)果模型經(jīng)過自動檢查,會判斷是否存在邏輯沖突、數(shù)據(jù)缺漏、排序異常等問題,并將結(jié)果反饋至"反思"模塊。通過評估結(jié)果與需求的差異不斷優(yōu)化后續(xù)策略,從而實現(xiàn)動態(tài)修正與智能迭代。
例如,當考生傾向選擇省內(nèi)且要求985院校時,模型在執(zhí)行任務后,面對省內(nèi)985院校較少的情況,會像志愿專家一樣嘗試推薦適合的外省985高校。
以通義千問為基座,夸克高考志愿大模型基于領(lǐng)域數(shù)據(jù)優(yōu)勢,通過專項訓練具備對復雜規(guī)則與用戶需求的理解與推理能力,讓模型真正"像志愿專家一樣思考與決策"。
夸克高考志愿大模型通過一個多階段、高復雜度的訓練范式構(gòu)建流程,融合了自監(jiān)督語義建模、監(jiān)督式對齊調(diào)優(yōu)、由專家判別價值引導的策略精化機制。
在指令微調(diào)階段,夸克高考志愿大模型將數(shù)百名資深高考志愿規(guī)劃師的溝通、決策過程進行結(jié)構(gòu)化。圍繞他們與考生或家長的多輪真實對話,提取出完整分析路徑與語言風格。通過將上萬條真實專家"推理鏈"轉(zhuǎn)化為高質(zhì)量監(jiān)督數(shù)據(jù),夸克高考志愿大模型得以深度學習人類專家的分析過程。
夸克高考志愿大模型還在復雜推理任務中生成了中間可驗證結(jié)構(gòu),顯著降低幻覺率、增強跨模態(tài)演繹能力,并實現(xiàn)分布外泛化魯棒性,解決各種需要專業(yè)知識的復雜問題。
最后通過基于人類偏好強化學習(RLHF)精化策略層,夸克高考志愿大模型構(gòu)建了一個閉環(huán)優(yōu)化機制,將"模擬填報→專家反饋→策略評分"引入到模型迭代過程中。
模型會基于模擬的考生檔案生成志愿填報方案,隨后這些方案將被提交給多位高考志愿專家進行評估。評估標準包括:專業(yè)建議是否準確易懂、排序邏輯是否貼合考生特征、是否兼顧分數(shù)與興趣、是否充分提示風險并給出可行應對策略等。
夸克團隊已完成對數(shù)千份志愿報告的專家標注與打分,通過"人類挑刺+模型修正"的方式,使模型輸出在專業(yè)度與匹配度上持續(xù)逼近專家的真實判斷標準。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.