本報記者 馬 俊
編者的話:2025年被視為AI應用大規模落地的元年。AI技術帶來革命性便利的同時,其負面影響也隨之越來越受到關注。尤其是AI幻覺,即所謂“一本正經胡說八道”的問題,限制了AI在很多領域的應用,甚至引起社會治理方面的擔憂。該如何應對AI幻覺帶來的挑戰?環球時報研究院日前舉辦“環球前沿科技論壇·AI治理共識探索與中國方案”專題研討會,邀請多位業內專家就相關話題展開討論。
幻覺問題是AI進化的“胎記”?
相關調研顯示,在“公眾認為使用AI應用過程中有哪些突出問題”的問卷調查中,反饋最多的是“內容不準確,或含虛假信息”,占比高達42.2%。
中國信息通信研究院人工智能研究所安全與具身智能部主任石霖介紹說,業內說的AI幻覺,主要是指大模型生成的相關內容,和現實世界或者用戶的輸入不一致的現象,本質上是由于大模型的訓練設計缺陷、數據的不足以及架構的偏差等因素造成的。更通俗地說,大模型的底層原理是基于概率內生機制,生成過程中會傾向于選擇訓練數據中出現頻率高的表達方式,所以在回答中AI會不斷選擇出現概率最高的詞,然而其中一個詞產生了錯誤,AI并不知道哪些是正確或者客觀答案,不會自我糾正,導致錯誤進一步擴大。
總體上可以將AI幻覺分為三類:事實性幻覺,也就是公眾反饋最多的AI編造虛假事件、引出不存在的知識、進行違反常識的推斷等;忠實性幻覺,主要是由于當前大模型的注意力機制,導致不能維持超長文本的一致性,表現出上下文自我矛盾,比如AI先肯定一個觀點,接下來的回答又否定同一個觀點,出現上下不一致的現象;隨著多模態的應用,AI還出現了跨模態不一致的問題,比如文生圖的時候,可能會出現相關幻覺問題。
石霖強調說,目前的大模型架構,不可能完全消除幻覺,只能通過各種技術手段進行緩解。
另一名與會專家表示,對AI幻覺,公眾倒不用談之色變。我們可以將幻覺理解為生成式AI進化的“胎記”。大語言模型基于transformer架構,核心是讓模型動態聚焦重點詞,通過注意力機制同時掃描整句話的所有詞,建立上下文關系邏輯,再結合位置編碼記住詞順序,層層推導后輸出結果。再形象一點說,模型就像一個靠背課文考試的學生,遇到不會的題就靠聯想瞎蒙,還不敢交白卷,這樣,通過模型的技術限制+數據缺陷+生成機制,導致“幻覺”無法完全避免。
他認為,從另外的視角看,AI的適度生成自由度可以稱之為可理解的幻覺,是大模型保持“創造力”的一個必要的代價,“像繪畫是對于人類記憶或者形象的一種創造性重構,AI的幻覺可能正是它持續實現能力突破的一股內生力量”。
北京師范大學法學院博士生導師、中國互聯網協會研究中心副主任吳沈括也認為,AI幻覺一方面帶來信任危機、安全漏洞、信息污染,包括意識形態安全風險;另一方面不能由此否定所有的正向價值,幻覺產生過程也會有一定偶然性,也有可能帶來新的創造力,在藝術和科研等領域很有價值。
AI幻覺的危害有多大
《自然》雜志的統計顯示,各類聊天機器人在提及參考文獻時的出錯率相當驚人。對于很多要求嚴謹的專業領域,例如開具醫療處方、司法判決、推薦股票、生成生產代碼等,AI的使用就受到嚴格限制,還有人擔心海量AI生成的幻覺內容涌入網絡,又被大模型當成訓練素材學習,導致幻覺更嚴重,形成惡性循環,加劇網絡低質量內容增長。
清華大學公共管理學院院長、科技發展與治理研究中心主任朱旭峰認為,討論AI幻覺對于社會的危害,其實不取決于AI本身,而是取決于應用的場景。如果只是把AI作為聊天工具,幻覺問題并沒有什么嚴重后果,就類似和朋友天南海北地聊天,其中有吹牛的成分也無傷大雅。但如果把AI生成的錯誤結果不加識別地用于法院判決等場合,顯然危害很大,用AI進行醫療診斷,出現幻覺問題可能導致嚴重的醫療事故。
朱旭峰表示,現在AI幻覺問題還主要集中在文字內容上,但隨著DeepSeek等大模型開始普及,AI被用于其他大量場景,生成的不是文字,而是軟件、算法、程序甚至決策的信號,影響就更大了。比如現在多個品牌的自動駕駛技術,就是用生成式人工智能技術把人的駕駛習慣大數據跟周圍場景結合起來,通過深度學習利用人工智能算法生成出自動駕駛或緊急避讓決策。如果這時候人工智能出現幻覺,就可能引發交通事故。這些也是屬于AI幻覺所產生的后果,所造成的危害顯然是實實在在的。因此談AI幻覺,不能拋開場景。
中國政法大學數據法治研究院教授、聯合國人工智能高級別咨詢機構專家張凌寒指出,大模型的幻覺問題引發嚴重關注,主要在于人們將其應用于不適宜的領域。公眾對大模型生成內容及其功能存在過度幻想,當其生成的內容不夠真實時,便將問題歸咎于AI,而實際上人類本就不應完全依賴人工智能大模型。在文化創意產業等領域,AI幻覺的影響相對較小,因其本就倚重豐富的想象力。然而,在對精準性要求極高的行業,AI幻覺可能導致嚴重問題。例如,2023年2月,美國紐約南區聯邦法院在審理一起航空事故訴訟時發現,原告律師提交的法律文書中引用了ChatGPT生成的6個虛假判例,這些虛構案例包括完整的案件名稱、案卷號及法官意見,甚至模仿了美國聯邦最高法院的判例風格,其虛構能力嚴重干擾了司法程序。
吳沈括表示,AI幻覺具有難以預測的特點。數據安全、供應鏈安全、自動化決策以及意識形態等領域當中會有進一步的擴大或者風險放大的趨勢。從數據安全角度來講,在AI幻覺過程中形成的新數據可能成為下一次訓練數據的組成部分,這樣的累積疊加,同樣從供應鏈安全角度來講,幻覺的存在進入到新的應用場景當中,會引發軟件供應鏈安全風險,這個問題具有一定的隱藏性。此外,國外相關研究對于大模型應用過程當中存在的根深蒂固的歧視和偏見等問題非常關注。他們經常講到幻覺內容會引發意識形態的安全問題,提出需要有前瞻性的規劃部署和風險防范。
石霖表示,大模型生成的內容正不斷出現在互聯網上,里邊可能會包含幻覺產生的數據,如果再拿這些數據反過來做訓練的話,會污染大模型訓練相關的數據集,會對大模型進一步的訓練造成一定的阻礙。同時AI幻覺也可能會限制現有技術產品的能力。再有幻覺大模型底層的風險隱患,會造成我們研發和修補的成本持續增加。
石霖也認為互聯網信息污染問題在一定程度上會影響國家安全,因為很多人用AI技術專門博取互聯網流量,這些內容有可能大部分都是低質量的,或者因為幻覺產生錯誤的問題,包括像“林黛玉倒拔垂楊柳”等內容,這些內容沒有直接的危害,但它長期存在于互聯網上,可能會使下一代產生認知偏差。
朱旭峰強調,幻覺并不是人工智能時代才有的產物,自古以來就有,應辯證、更加全面地看待它。對于AI幻覺,不能因噎廢食,要通過不斷強化修正、監督機制,讓AI更好地服務于人類。
引入高質量數據集,探索風險分級
與會專家認為,從AI幻覺產生的原理看,矯正或降低幻覺的一個基本方法是在大模型訓練中采用高質量的訓練數據。這些高質量的訓練數據包括原生數據和合成數據。
但近年來業內不斷有專家警告稱,隨著大模型的高速發展,可供大模型訓練的數據存在枯竭問題。有與會專家表示,現在所謂訓練數據枯竭,其實主要是指互聯網公開和可采集到的數據,主要是采集頭部互聯網域名幾十萬個網站的公開信息,但這些網站的信息語料屬于低質量數據,其中含有大量的錯誤、廣告等內容,需要花費很大力氣清理。相對而言,高質量數據主要來自于專業書本或者出版物,但這些數據由于版權問題沒有上網。現在大模型廠商也注意到互聯網數據的質量問題,更注重選擇高質量數據。此外在很多特定場合,也在利用合成數據訓練大模型,比如訓練機器人抓球的動作,互聯網上并沒有現成的數據可供使用,但可以通過搭建仿真環境,讓大模型在里面做各種各樣的動作,根據物理規則產生相關的數據,這就是所謂大模型使用的合成數據。
石霖認為,對于大模型本身,可以RAG檢索增強方式,引入知識圖譜或者構建因果推斷的模型,在一定程度上利用核驗方式緩解AI幻覺,提高輸出的可靠性。引入高質量數據集,加入真實性核驗插件,通過聯網實時核驗。同時在行業層面,建立幻覺評估的評測體系,優先選擇幻覺低的模型作為基座。建立幻覺聯防聯控機制;建立辟謠網站,積累負面樣本。
與會專家建議,從合規層面,可以探索對幻覺風險進行分級分類,例如對可能造成災難性、敏感性、涉及重大安全的幻覺風險,要劃清級別,并采取措施避免AI幻覺引發重大經濟、社會和公眾安全侵害。
吳沈括提議,對于生成內容標識的監管,一方面是提前預判風險,及時梳理匯總,追加實踐;另一方面是引入必要的機制,比如創建白名單知識庫,建立安全可信、動態更新的信源和數據知識庫。同時通過專項行動定期清理幻覺數據,對跨境數據進行審查和評測等。
張凌寒認為,AI幻覺問題的根源在于人們將本不適宜交給大模型的任務交給其處理,并且缺乏事后審查和核查機制。在金融、醫療等關乎重大利益的領域,最終的審核與決策應由人類掌控,而非將決策權完全交給AI。與其糾結于控制 AI幻覺,不如深入探討是否應在嚴謹與精準行業使用AI,以及是否應無條件信任AI。
目前,從技術層面無法完全消除AI幻覺。張凌寒表示,治理層面應著重區分人類與機器生成內容,并加強內容把關、嚴控及評價。當前,監管部門已要求對人工智能生成合成內容進行標識,雖不涉及具體內容質量判斷,但能明確指出哪些內容由人工智能生成。
張凌寒強調,中國在人工智能內容治理領域已處于領先地位。2023年1月10日起施行的《互聯網信息服務深度合成管理規定》率先將人工智能生成標識設為強制性規定。而美國加州的《加州人工智能透明度法案》將于2026年1月1日生效,歐盟《人工智能法案》中關于標識義務的要求將于2026年8月2日起正式實施。中國在人工智能內容治理方面已經形成成熟方案,為全球提供了制度借鑒。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.