網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

斯坦福團(tuán)隊(duì)開(kāi)發(fā)AI數(shù)據(jù)提取框架，為能源領(lǐng)域數(shù)據(jù)獲取難題提供方案

2025-05-24 22:20:14　來(lái)源: DeepTech深科技

北京舉報(bào)

分享至

溫室氣體排放的準(zhǔn)確評(píng)估與減排是能源領(lǐng)域的重大挑戰(zhàn)，但石油和天然氣行業(yè)的關(guān)鍵數(shù)據(jù)通常分散在昂貴的商業(yè)數(shù)據(jù)庫(kù)中，其存在數(shù)據(jù)碎片化、雜亂且難以獲取的問(wèn)題。此外，該領(lǐng)域的官方數(shù)據(jù)更新相對(duì)滯后，傳統(tǒng)人工提取方法效率低下且容易出錯(cuò)。

針對(duì)上述問(wèn)題，美國(guó)斯坦福大學(xué)博士生陳震林及其所在課題組基于大語(yǔ)言模型開(kāi)發(fā)了一種創(chuàng)新的框架。

該技術(shù)利用大模型（GPT-4 和 GPT-4o）卓越的文本理解能力（遠(yuǎn)超傳統(tǒng)文字識(shí)別技術(shù)），能夠從石油天然氣領(lǐng)域的公開(kāi)文獻(xiàn)（包括學(xué)術(shù)期刊論文和新聞報(bào)道等多元數(shù)據(jù)格式）中高效提取關(guān)鍵數(shù)據(jù)。

這一框架展現(xiàn)出兩大核心優(yōu)勢(shì)：

一是經(jīng)濟(jì)性顯著提升，通過(guò)優(yōu)化 GPT-4o 的應(yīng)用，使單數(shù)據(jù)點(diǎn)提取成本降低達(dá) 10 倍（0.04 美元）；

二是效率高，在測(cè)試數(shù)據(jù)集上實(shí)現(xiàn)了 83.74% 的準(zhǔn)確率與 78.16% 的 F1 分?jǐn)?shù)，證明了其在在內(nèi)的多源信息中的適應(yīng)性與可靠性。

據(jù)介紹，這是斯坦福團(tuán)隊(duì)首例在石油天然氣領(lǐng)域的應(yīng)用。該工具不僅解決了傳統(tǒng)數(shù)據(jù)獲取的難題，更能為溫室氣體排放的精準(zhǔn)評(píng)估和全生命周期分析提供可靠支撐，最終服務(wù)于科學(xué)政策制定和環(huán)境管理決策的優(yōu)化。

圖丨陳震林（來(lái)源：陳震林）

日前，相關(guān)論文以《通過(guò)大語(yǔ)言模型數(shù)據(jù)提取推進(jìn)油氣排放評(píng)估》（Advancing oil and gas emissions assessment through large language model data extraction）為題發(fā)表在Energy and AI[1]。斯坦福大學(xué)博士生陳震林擔(dān)任第一作者兼通訊作者。

圖丨相關(guān)論文（來(lái)源：Energy and AI）

該框架的創(chuàng)新之處在于利用 GPT-4 和 GPT-4o 等大模型，通過(guò)迭代優(yōu)化提示詞（prompt engineering）實(shí)現(xiàn)油氣行業(yè)關(guān)鍵數(shù)據(jù)的高效提取。

為驗(yàn)證方法的有效性，該課題組首先構(gòu)建了一個(gè)包含 108 份文檔的專業(yè)數(shù)據(jù)集，涵蓋氣油比、水油比等 51 個(gè)核心參數(shù)，并采用領(lǐng)域?qū)＜胰斯?biāo)注的方式建立基準(zhǔn)數(shù)據(jù)以提升模型準(zhǔn)確率。

（來(lái)源：Energy and AI）

陳震林對(duì) DeepTech 進(jìn)一步解釋道：“我們整合了領(lǐng)域?qū)I(yè)知識(shí)與數(shù)值計(jì)算方法，包括物理方程和熱力學(xué)方程的運(yùn)用。然后，將專家計(jì)算結(jié)果與大模型輸出進(jìn)行多輪比對(duì)和迭代優(yōu)化。”

隨后，研究人員進(jìn)一步進(jìn)行微調(diào)，分析每篇文章在數(shù)據(jù)庫(kù)中提取出錯(cuò)以及與人工標(biāo)注結(jié)果不符的原因。

細(xì)致的誤差分析結(jié)果顯示，數(shù)據(jù)偏差可能來(lái)自兩個(gè)方面：一方面，人工標(biāo)注本身存在誤差，在某些情況下大模型的判斷反而更準(zhǔn)確；另一方面，模型在單位換算或數(shù)值處理時(shí)會(huì)出現(xiàn)混淆。

針對(duì)這些問(wèn)題，研究人員對(duì)其進(jìn)行更多的訓(xùn)練和校正，使訓(xùn)練后的準(zhǔn)確率從初始的 63.6% 顯著提升到了 83.74%（如下表）。

表丨提示迭代訓(xùn)練結(jié)果（來(lái)源：Energy and AI）

從文檔處理效率方面來(lái)看，使用新方法從 32 篇文檔中提取大量數(shù)據(jù)僅需 61.41 分鐘，處理一個(gè)文檔平均僅需 7.09 秒，較手動(dòng)方法實(shí)現(xiàn)了顯著提升。

值得注意的是，研究還揭示了文本類型對(duì)提取效率的影響——由于字段結(jié)構(gòu)更簡(jiǎn)單、內(nèi)容更直白，新聞?lì)愇恼碌奶崛∷俣让黠@優(yōu)于技術(shù)文獻(xiàn)。

陳震林指出，研究過(guò)程中的關(guān)鍵挑戰(zhàn)在于開(kāi)發(fā)最優(yōu)的零樣本學(xué)習(xí)方法，這需要通過(guò)對(duì)提示策略的持續(xù)迭代來(lái)尋找最佳解決方案。

（來(lái)源：Energy and AI）

該課題組不僅建立了一套系統(tǒng)的提示優(yōu)化方法論，更探索出充分發(fā)揮大模型潛力的技術(shù)路徑，為能源領(lǐng)域數(shù)據(jù)提取提供了可復(fù)用的研究范式。

需要了解的是，該框架的應(yīng)用范圍不僅限于能源行業(yè)的上游領(lǐng)域，其強(qiáng)大的適應(yīng)性使其同樣適用于中游和下游環(huán)節(jié)的數(shù)據(jù)提取任務(wù)。例如，在發(fā)電領(lǐng)域，該技術(shù)可高效處理能源監(jiān)管機(jī)構(gòu)發(fā)布的年度發(fā)電站報(bào)告，以及各國(guó)政府定期發(fā)布的能源統(tǒng)計(jì)報(bào)告。

這些報(bào)告數(shù)據(jù)來(lái)源多樣，既包含傳統(tǒng)油氣領(lǐng)域信息，也涵蓋下游發(fā)電產(chǎn)業(yè)（如數(shù)據(jù)中心運(yùn)營(yíng)數(shù)據(jù)）和各類結(jié)構(gòu)化表格數(shù)據(jù)。

對(duì)此，陳震林特別強(qiáng)調(diào)：“我們致力于開(kāi)發(fā)具備遷移學(xué)習(xí)能力的框架體系，使其能夠通過(guò)'舉一反三'的機(jī)制，在不同應(yīng)用場(chǎng)景中創(chuàng)造新的價(jià)值。”

（來(lái)源：Energy and AI）

在未來(lái)的研究階段，研究人員計(jì)劃繼續(xù)優(yōu)化準(zhǔn)確率和架構(gòu)。陳震林表示：“我們當(dāng)初在做這項(xiàng)研究時(shí)只能依賴 GPT，但現(xiàn)在隨著大模型的不斷迭代和發(fā)展，可以讓包括 DeepSeek 在內(nèi)的多個(gè)模型混合共同閱讀文獻(xiàn)并交叉驗(yàn)證，從而進(jìn)一步提升模型的可靠性。”

目前，該團(tuán)隊(duì)的龍文男博士已完成一項(xiàng)關(guān)于全球液化天然氣碳排放測(cè)算的深入研究，系統(tǒng)追蹤了從上游開(kāi)采到下游應(yīng)用的完整供應(yīng)鏈碳足跡，相關(guān)論文已進(jìn)入投稿階段。

此外，研究人員還計(jì)劃基于錯(cuò)誤分析機(jī)制，更深入地揭示大模型本身在某些方面理解錯(cuò)誤率較高的原因。“我們將通過(guò)大規(guī)模錯(cuò)誤樣本分析，精確識(shí)別模型的理解盲區(qū)和易錯(cuò)點(diǎn)，這些發(fā)現(xiàn)將直接指導(dǎo)后續(xù)的模型優(yōu)化。”陳震林說(shuō)。

在應(yīng)用層面，該課題組在本次研究中已完成了上游環(huán)節(jié)的定性分析，接下來(lái)將重點(diǎn)拓展至中游和下游的全面評(píng)估。“我們期待這項(xiàng)研究能成為 AI 與能源領(lǐng)域深度結(jié)合的重要工作，為全球氣候政策的科學(xué)制定提供關(guān)鍵數(shù)據(jù)支撐。”陳震林說(shuō)。

參考資料：

1.Zhenlin Chen et al. Advancing oil and gas emissions assessment through large language model data extraction.Energy and AI(2025). https://doi.org/10.1016/j.egyai.2025.100481

運(yùn)營(yíng)/排版：何晨龍

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.