朱自清的《荷塘月色》被某檢測系統(tǒng)判定AI生成內(nèi)容疑似度高達62.88%,唐代詩人王勃的《滕王閣序》甚至被檢出AI率接近100%……近日,網(wǎng)絡(luò)上出現(xiàn)這些令人哭笑不得的結(jié)果,迅速引發(fā)公眾對AI檢測準確性的熱議:有人擔(dān)憂自己的論文會被AI檢測誤判,擔(dān)心按照其結(jié)果修改后反而影響論文質(zhì)量;有人調(diào)侃需故意“寫笨”才能規(guī)避誤判;更有人認為目前AI檢測技術(shù)尚未成熟,不宜將其作為檢測論文的硬性標(biāo)準。記者為此采訪多位學(xué)術(shù)界和業(yè)界專家,他們從技術(shù)原理、算法局限等維度剖析AI檢測的現(xiàn)實困境,探討完善AI檢測體系的路徑。
待破解的AI檢測理論困境
中國人民大學(xué)新聞學(xué)院副教授董晨宇告訴記者,自己將剛完成的研究秀場直播產(chǎn)業(yè)的論文提交至某學(xué)術(shù)論文檢測平臺,得到的結(jié)果令他哭笑不得。系統(tǒng)標(biāo)紅的“高度疑似AI生成”段落是研究團隊耗時3年扎根基層、追蹤多個真實案例寫成的內(nèi)容。對此,他感慨道,這一現(xiàn)象暴露出當(dāng)前AI檢測技術(shù)的不成熟性,“假陽性”(誤判人類原創(chuàng)為AI生成)與“假陰性”(誤判AI生成內(nèi)容為人類原創(chuàng))的雙重問題非常突出。技術(shù)邏輯與學(xué)術(shù)規(guī)范的深層沖突,加劇了誤判的必然性。《天津社會科學(xué)》主編時世平認為,學(xué)術(shù)寫作追求的語言規(guī)范、邏輯嚴謹與AI生成的底層邏輯高度重合——AI正是通過學(xué)習(xí)規(guī)范性表達來生成內(nèi)容。這導(dǎo)致檢測系統(tǒng)陷入悖論:越是文筆流暢、邏輯清晰的文本,越容易觸發(fā)“AI生成”警報,使得學(xué)術(shù)表達的優(yōu)質(zhì)特征成為被誤判的“罪證”。
AI檢測面臨難以突破的理論瓶頸。AIGCLINK發(fā)起人、中關(guān)村超互聯(lián)聯(lián)盟副秘書長占冰強認為,從技術(shù)本質(zhì)與實踐困境來看,當(dāng)前AI檢測技術(shù)尚未成熟,甚至可被視為偽命題。AI通過監(jiān)督微調(diào)(SFT)等技術(shù)學(xué)習(xí)人類知識體系,其生成內(nèi)容與人類創(chuàng)作在語言結(jié)構(gòu)、邏輯范式等淺層特征上日趨相似,導(dǎo)致AI生成與人類寫作的邊界愈發(fā)模糊。此外,現(xiàn)有檢測模型普遍存在方法論局限:其一,多依賴單一指標(biāo)構(gòu)建檢測基準,難以適應(yīng)復(fù)雜多變的文本場景。其二,為規(guī)避漏判風(fēng)險,部分模型在技術(shù)底層設(shè)置過敏感閾值,易引發(fā)誤判。其三,不同檢測工具采用差異化評估標(biāo)準,導(dǎo)致同一文本在不同平臺檢測結(jié)果呈現(xiàn)顯著分歧,凸顯技術(shù)普適性的缺失。
復(fù)旦大學(xué)計算與智能創(chuàng)新學(xué)院教授陳陽表示,AI檢測難度遠大于傳統(tǒng)的“論文查重”工作。究其原因,在于基于生成式AI技術(shù)構(gòu)建大語言模型的過程中,無論是預(yù)訓(xùn)練階段還是微調(diào)階段,都會使用人類創(chuàng)作的語料作為輸入,進而對人類生成文本的模式進行學(xué)習(xí)和建模。在這樣的情況下,大語言模型生成的內(nèi)容和人類創(chuàng)作的內(nèi)容客觀上存在雷同或者部分雷同的可能性。因此,在AI檢測過程中,不論是名家名篇,還是由用戶自己創(chuàng)作的內(nèi)容,完全可能被誤判為AI生成。
給學(xué)術(shù)生態(tài)帶來多重挑戰(zhàn)
為驗證AI檢測技術(shù)的效能,記者選用AI檢測軟件“鑒字源”,對《荷塘月色》《滕王閣序》《狂人日記》《繁星》等經(jīng)典文學(xué)作品進行檢測。結(jié)果顯示,這些名人名篇的AIGC總體疑似度均為0.0%,與網(wǎng)絡(luò)流傳的“AI率”結(jié)論形成鮮明反差。這一現(xiàn)象折射出當(dāng)前AI檢測技術(shù)存在的深層問題。
占冰強從技術(shù)原理層面剖析上述矛盾,當(dāng)前,不同AI檢測軟件對同一文本的檢測結(jié)果差異顯著,根源在于其檢測標(biāo)準與技術(shù)路徑的異質(zhì)性。由于開發(fā)者采用的檢測算法、訓(xùn)練數(shù)據(jù)及評估指標(biāo)各不相同,各檢測工具構(gòu)建判斷模型時遵循的技術(shù)范式與判定邏輯也存在根本差異,這使得檢測結(jié)果呈現(xiàn)出強烈的場景依賴性。在特定學(xué)術(shù)語境或文本類型下,某種檢測標(biāo)準或許具有較高的準確性,但一旦檢測對象的學(xué)科領(lǐng)域、文本體裁或語言風(fēng)格發(fā)生變化,原有標(biāo)準的有效性便會大打折扣。因此,受技術(shù)標(biāo)準多元與場景適配不足的制約,當(dāng)前AI檢測技術(shù)亟須建立統(tǒng)一的行業(yè)標(biāo)準與多場景驗證機制,以提升檢測結(jié)果的可靠性與一致性。
技術(shù)標(biāo)準的混亂直接影響AI檢測在學(xué)術(shù)領(lǐng)域的應(yīng)用效果。中華醫(yī)學(xué)會雜志社新媒體部主任沈錫賓表示,生成式人工智能在學(xué)術(shù)領(lǐng)域的應(yīng)用正呈現(xiàn)出雙刃劍效應(yīng)。隨著大模型能力的不斷增強,一方面能夠拓展學(xué)者的思維邊界,有效彌補理論與實踐中的知識缺口,助力完善學(xué)術(shù)思維框架;另一方面,在文字處理方面展現(xiàn)出強大優(yōu)勢,不僅能夠?qū)崿F(xiàn)高質(zhì)量的文字潤色,還可模擬高水平研究者的寫作風(fēng)格,完成專業(yè)文本的撰寫、改寫與翻譯工作。然而,這種技術(shù)能力的提升也帶來一系列問題,AI代寫與潤色現(xiàn)象快速蔓延,其生成的內(nèi)容憑借高水準的語言表達,常使編輯難以通過傳統(tǒng)人工審查方式辨別真?zhèn)巍?/p>
南京師范大學(xué)中國法治現(xiàn)代化研究院研究員李謙認為,AI檢測在學(xué)術(shù)領(lǐng)域的應(yīng)用不僅影響學(xué)術(shù)成果的創(chuàng)新轉(zhuǎn)化,還沖擊著學(xué)術(shù)信任體系。在創(chuàng)新轉(zhuǎn)化層面,為滿足AI檢測要求,部分學(xué)者會簡化語言、打散表述,刻意避免集中探討學(xué)術(shù)觀點,甚至采用添加干擾字符、改變句式結(jié)構(gòu)等方式“躲避”檢測,結(jié)果往往適得其反,影響學(xué)術(shù)成果的質(zhì)量與表達深度。而在學(xué)術(shù)信任方面,一旦AI檢測頻繁出現(xiàn)誤判,將削弱學(xué)術(shù)界對AI工具的信任度,破壞學(xué)術(shù)生態(tài)的良性發(fā)展。
從檢測結(jié)果的矛盾到技術(shù)原理的缺陷,再到學(xué)術(shù)生態(tài)的連鎖反應(yīng),AI檢測技術(shù)正面臨從標(biāo)準統(tǒng)一到應(yīng)用優(yōu)化的系統(tǒng)性挑戰(zhàn)。唯有解決技術(shù)異質(zhì)性與場景適配問題,平衡技術(shù)監(jiān)管與學(xué)術(shù)創(chuàng)新的關(guān)系,才能實現(xiàn)AI檢測技術(shù)與學(xué)術(shù)發(fā)展的良性互動。
促使技術(shù)與學(xué)術(shù)規(guī)范共生
對于AI檢測,受訪學(xué)者主要有兩類看法:一類主張通過技術(shù)創(chuàng)新提升AI檢測精準度、建立復(fù)合型審核機制等增強工具對學(xué)術(shù)內(nèi)容的篩查功能;另一類則認為,AI檢測意義不大,應(yīng)突破單純檢測AI生成痕跡的局限,從學(xué)術(shù)評估體系重構(gòu)、人機協(xié)同機制等維度應(yīng)對AI帶來的挑戰(zhàn)。
沈錫賓認為,AI檢測工具在識別明顯AI生成文稿、遏制學(xué)術(shù)不端方面具有積極意義,但技術(shù)短板顯著。隨著檢測能力的提升,工具對文本的篩查范圍不斷擴大,致使正常的文字潤色工作也常被誤判為AI生成內(nèi)容,造成編輯資源的無端消耗與出版效率的下降。與此同時,面對海量文獻,算法偏差與數(shù)據(jù)樣本不足引發(fā)的高誤判率,暴露出現(xiàn)有技術(shù)在理論架構(gòu)、算法設(shè)計和場景適配方面的缺陷。通過強化技術(shù)創(chuàng)新、完善檢測標(biāo)準,能夠提升AI檢測工具的可靠性,使其在學(xué)術(shù)審核中發(fā)揮更大作用。
中國社會科學(xué)院文學(xué)研究所研究員劉方喜從技術(shù)發(fā)展趨勢角度,對傳統(tǒng)檢測模式提出質(zhì)疑。他表示,伴隨技術(shù)迭代加速,未來無論是專家經(jīng)驗判斷還是軟件檢測,都難以精準區(qū)分AI生成與人類原創(chuàng)內(nèi)容。因此,單純依賴AI檢測工具已無法滿足學(xué)術(shù)審核需求,需建立復(fù)合型審核機制,包括作者AI使用聲明制度、負面清單管理等。
時世平建議,在AI技術(shù)未完善之前,應(yīng)重視作者原創(chuàng)聲明環(huán)節(jié),對使用AI卻未作聲明的行為采取相應(yīng)措施。期刊社必須發(fā)揮好編輯的主觀能動性,明確AI檢測的輔助而非唯一決定功用,更多地完善同行評議、專家審核機制,綜合考量研究的原創(chuàng)性、學(xué)術(shù)價值,而非簡單的文字規(guī)范。李謙提出,要從學(xué)術(shù)評價過程、AI檢測工具研發(fā)、AI檢測參數(shù)設(shè)置等方面打造人機融合的動態(tài)學(xué)術(shù)評價體系。從AI檢測參數(shù)設(shè)置看,我們要結(jié)合學(xué)術(shù)研究成果自身特點,分門別類設(shè)定符合相應(yīng)學(xué)科特征的AI檢測相似度閾值。
占冰強認為,執(zhí)著于鑒定文本是否由AI生成,在學(xué)術(shù)邏輯和實踐操作中均缺乏長效性。要構(gòu)建以學(xué)術(shù)成果創(chuàng)新性評估為核心的檢測體系,通過對比研究問題的新穎性、方法路徑的獨特性、結(jié)論貢獻的突破性,精準識別學(xué)術(shù)創(chuàng)作價值,重塑學(xué)術(shù)質(zhì)量評價標(biāo)準。
董晨宇提出,在人工智能深度介入學(xué)術(shù)領(lǐng)域的背景下,應(yīng)理性看待AI技術(shù)的雙重屬性。一方面,AI已成為重要的學(xué)術(shù)輔助工具,AI技術(shù)發(fā)展打破了人類對創(chuàng)新的壟斷。教師應(yīng)積極引導(dǎo)學(xué)生合理運用AI學(xué)術(shù)工具,并通過公開使用過程促進學(xué)術(shù)交流。同時,學(xué)術(shù)考核機制需從結(jié)果導(dǎo)向轉(zhuǎn)向過程導(dǎo)向,將AI應(yīng)用納入學(xué)術(shù)規(guī)范。另一方面,AI在學(xué)術(shù)創(chuàng)作中的局限性不容忽視,其雖能提升研究效率、提高學(xué)術(shù)成果的基礎(chǔ)水準,但學(xué)術(shù)思想建構(gòu)、深度論證等仍要依賴人類智慧。因此,構(gòu)建人機協(xié)同的學(xué)術(shù)研究范式,應(yīng)明確人類在學(xué)術(shù)創(chuàng)造中的主導(dǎo)地位,實現(xiàn)技術(shù)工具性與學(xué)術(shù)自主性的有機統(tǒng)一。
清華大學(xué)社會科學(xué)學(xué)院教授羅家德表示,傳統(tǒng)的學(xué)術(shù)檢測標(biāo)準與教育方式已難以適應(yīng)新的學(xué)術(shù)生產(chǎn)形態(tài),亟須構(gòu)建以人機協(xié)同為基礎(chǔ)、過程監(jiān)管為核心的新型評估體系,引導(dǎo)學(xué)生在掌握AI工具使用技能的同時,強化批判性思維與原創(chuàng)性研究能力,實現(xiàn)學(xué)術(shù)教育與技術(shù)發(fā)展的有機融合。
學(xué)術(shù)界關(guān)于AI檢測的不同觀點,折射出學(xué)術(shù)領(lǐng)域應(yīng)對AI技術(shù)的不同策略。未來學(xué)術(shù)生態(tài)的健康發(fā)展,需要在技術(shù)精進與體系創(chuàng)新之間尋求平衡,推動AI檢測技術(shù)迭代升級,構(gòu)建涵蓋過程監(jiān)管、人機協(xié)同、價值評估的多元化學(xué)術(shù)審核體系,最終實現(xiàn)技術(shù)賦能與學(xué)術(shù)規(guī)范的有機統(tǒng)一。
來源:中國社會科學(xué)報
新媒體編輯:曾煜婷
如需交流可聯(lián)系我們
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.