智東西(公眾號(hào):zhidxcom)
作者 | ZeR0
編輯 | 漠影
智東西9月16日?qǐng)?bào)道,生成式AI幻覺問題是令人們不敢信任AI的一大痛點(diǎn)。對(duì)此,亞馬遜云科技將其核心云服務(wù)中長(zhǎng)期使用的自動(dòng)推理技術(shù)拿出來(lái),作為Amazon Bedrock Guardrails中的一項(xiàng)功能,供客戶直接使用。
Amazon Bedrock Guardrails自動(dòng)推理檢查(Automated Reasoning checks)功能已正式可用,同時(shí)新增5項(xiàng)功能。該功能通過基于數(shù)學(xué)和邏輯的形式化驗(yàn)證機(jī)制,幫助客戶依據(jù)其領(lǐng)域知識(shí),提高檢測(cè)和驗(yàn)證模型輸出的準(zhǔn)確性,AI響應(yīng)驗(yàn)證準(zhǔn)確率高達(dá)99%,能夠有效降低AI幻覺帶來(lái)的風(fēng)險(xiǎn)。
這種方法與概率推理方法有著本質(zhì)區(qū)別。概率推理方法是通過為結(jié)果分配概率來(lái)處理不確定性,而自動(dòng)推理檢查功能做到將AI輸出轉(zhuǎn)化為邏輯可驗(yàn)證的命題,幫企業(yè)把數(shù)學(xué)嚴(yán)謹(jǐn)性嵌入到AI應(yīng)用的防護(hù)中。
當(dāng)模型輸出存在多種解釋時(shí),自動(dòng)推理檢查功能還能輔助檢測(cè)歧義情況。
在預(yù)覽版的基礎(chǔ)上,該功能正式版新增了多項(xiàng)能力:可支持處理長(zhǎng)達(dá)80K token的文檔,保存和復(fù)用驗(yàn)證測(cè)試,自動(dòng)生成測(cè)試場(chǎng)景,以自然語(yǔ)言形式反饋策略優(yōu)化建議,并允許客戶自定義置信度閾值。這些增強(qiáng)功能讓自動(dòng)推理檢查從概念性探索走向可規(guī)?;涞?,給業(yè)務(wù)層面加筑一道AI可信防線。
一、十年打磨的幕后武器,首次走向客戶應(yīng)用
幻覺是大語(yǔ)言模型輸出內(nèi)容不靠譜的關(guān)鍵問題之一。企業(yè)客戶希望獲得更加確定性的結(jié)果:一是語(yǔ)法表達(dá)和事實(shí)表達(dá)上的正確性,即不希望出現(xiàn)幻覺;二是業(yè)務(wù)表達(dá)上的準(zhǔn)確性,即希望大模型能夠真正理解業(yè)務(wù)場(chǎng)景,輸出符合業(yè)務(wù)邏輯的內(nèi)容。
降低幻覺的一個(gè)常見做法是把整個(gè)原始文檔作為提示詞和上下文傳給大模型,這樣方式往往會(huì)消耗大量Token,成本很高,還考驗(yàn)?zāi)P湍懿荒軓拇罅績(jī)?nèi)容里準(zhǔn)確提取,成本和準(zhǔn)確性都有風(fēng)險(xiǎn)。
通過規(guī)則補(bǔ)充模型能力,是大模型生產(chǎn)化落地的一個(gè)可取方法。
自動(dòng)推理檢查功能相當(dāng)于“大模型的邏輯監(jiān)督員”,在模型輸出前,加了一道邏輯校驗(yàn),來(lái)進(jìn)一步提升AI輸出內(nèi)容的可信度。
其背后技術(shù)原理是符號(hào)式AI(Symbolic AI),核心思想是把人類世界的各種描述抽象成邏輯表達(dá),再通過嚴(yán)格的邏輯控制,確保AI的輸出或自動(dòng)生成的內(nèi)容符合實(shí)際結(jié)果。
在Amazon S3、Amazon IAM等核心服務(wù)中,亞馬遜云科技已使用自動(dòng)推理技術(shù)十余年,驗(yàn)證代碼正確性、優(yōu)化性能、縮短迭代周期。
比如在Amazon S3存儲(chǔ)桶中客戶需要對(duì)訪問權(quán)限做嚴(yán)格控制,在Amazon VPC中涉及大量的網(wǎng)絡(luò)連接和權(quán)限控制,背后都是基于自動(dòng)推理實(shí)現(xiàn)的。
通過Amazon Bedrock Guardrails,亞馬遜云科技首次將這一工具開放給客戶,提供AI安全與合規(guī)的即開即用能力,進(jìn)一步改善實(shí)際業(yè)務(wù)中大模型幻覺問題。
正式推出的Amazon Bedrock Guardrails自動(dòng)推理檢查功能新增5大特性:
(1)可處理大型文檔:支持在單次構(gòu)建中處理大型文檔,最多可達(dá)80K tokens長(zhǎng)文檔,能輕松處理海量文檔資料,相當(dāng)于多達(dá)100頁(yè)的內(nèi)容。
(2)簡(jiǎn)化策略驗(yàn)證流程:可保存驗(yàn)證測(cè)試并反復(fù)運(yùn)行,便于隨時(shí)間推移對(duì)策略進(jìn)行維護(hù)和驗(yàn)證,讓策略驗(yàn)證擁有類似“回歸測(cè)試”的工程屬性。
(3)自動(dòng)場(chǎng)景生成:根據(jù)客戶的定義自動(dòng)創(chuàng)建測(cè)試場(chǎng)景,能降低使用門檻,節(jié)省時(shí)間和精力,有助于實(shí)現(xiàn)更全面的場(chǎng)景覆蓋。
(4)增強(qiáng)的策略反饋:能夠以自然語(yǔ)言的形式為策略變更提供建議,從而簡(jiǎn)化策略優(yōu)化流程,讓并非邏輯學(xué)專家的開發(fā)者和合規(guī)人員也能快速上手。
(5)可定制的驗(yàn)證設(shè)置:可根據(jù)具體需求調(diào)整置信度分?jǐn)?shù)閾值,使企業(yè)對(duì)驗(yàn)證嚴(yán)格程度擁有更靈活的控制權(quán)。
這些新特性的推出,意味著自動(dòng)推理檢查功能已經(jīng)從一個(gè)面向?qū)I(yè)領(lǐng)域的“概念驗(yàn)證工具”,發(fā)展成為可以大規(guī)模、標(biāo)準(zhǔn)化應(yīng)用的工程化能力,從實(shí)驗(yàn)室走向生產(chǎn)環(huán)境。
二、判斷AI助手回答是否符合規(guī)則,精準(zhǔn)定位矛盾點(diǎn)
將一份自然語(yǔ)言寫成的政策文檔上傳到Amazon Bedrock Guardrails模塊后,系統(tǒng)會(huì)通過自動(dòng)推理,把自然語(yǔ)言的表述轉(zhuǎn)化為符號(hào)化的邏輯表達(dá),即自動(dòng)抽取一系列規(guī)則和變量,進(jìn)行符號(hào)化處理,再組合成規(guī)則。
這一過程在控制臺(tái)中包含完整的邏輯鏈路:用戶在“Automated Reasoning”下創(chuàng)建策略,輸入名稱和描述并上傳規(guī)則文檔;系統(tǒng)會(huì)自動(dòng)生成由規(guī)則(Rules)、變量(Variables)和自定義類型(Custom Types)組成的邏輯結(jié)構(gòu),并應(yīng)用在Amazon Bedrock Guardrails的最終防護(hù)環(huán)節(jié)。
這些規(guī)則的作用是驗(yàn)證大模型的輸出結(jié)果。大模型本身并不知道企業(yè)內(nèi)部的規(guī)則,只是基于概率生成的。通過這樣一道邏輯校驗(yàn),就能捕捉模型的輸出,判定它是有效(Valid)、無(wú)效(Invalid)還是部分滿足(Satisfiable)。
規(guī)則定義了變量之間的邏輯關(guān)系并具唯一ID以便追溯,變量抽取原文中的關(guān)鍵概念,如首付比例或信用評(píng)分,自定義類型則用于限定取值范圍,例如區(qū)分“有保險(xiǎn)貸款”和“常規(guī)貸款”。
在“Tests”環(huán)節(jié),用戶可以先利用“自動(dòng)生成場(chǎng)景”快速得到覆蓋全面的測(cè)試用例,再補(bǔ)充手動(dòng)測(cè)試,并為每個(gè)用例設(shè)定預(yù)期(Valid、Invalid、Satisfiable),同時(shí)可設(shè)置置信度閾值。
前期抽象出規(guī)則的過程是自動(dòng)完成的,不需要人工參與,效率更高。這個(gè)過程可能存在幻覺,所以系統(tǒng)提供了自定義接口,讓領(lǐng)域?qū)<夷軐?duì)這些規(guī)則進(jìn)行修改和修訂,確保邏輯正確。規(guī)則修改完成后,就可以把它們推到線上。
當(dāng)企業(yè)員工和大模型真正交互時(shí),這些規(guī)則會(huì)作為一道過濾器,對(duì)模型輸出進(jìn)行檢查。這樣一來(lái)可以更好地控制模型輸出,避免業(yè)務(wù)邏輯上的錯(cuò)誤。
運(yùn)行驗(yàn)證后,系統(tǒng)不僅能判斷AI助手的回答是否符合審批規(guī)則,還能在失敗時(shí)精確定位到引發(fā)矛盾的規(guī)則,幫助用戶優(yōu)化策略或修正測(cè)試。
完成驗(yàn)證后,單個(gè)Guardrail最多可附加兩份自動(dòng)推理策略,并能與內(nèi)容過濾、上下文基礎(chǔ)核查等其他防護(hù)機(jī)制協(xié)同工作,從而形成覆蓋邏輯、內(nèi)容與語(yǔ)境的多層次安全保障。
在實(shí)際應(yīng)用中,自動(dòng)推理檢查功能會(huì)集成在業(yè)務(wù)流程里。該模塊可以和防違規(guī)模型一起用,也可以獨(dú)立應(yīng)用,把任何模型的輸出結(jié)果傳到Guardrails進(jìn)行管控。
這些防護(hù)措施不僅適用于Amazon Bedrock的模型,還可通過API擴(kuò)展到第三方模型,并能與Strands Agents及基于Amazon Bedrock AgentCore的Agent配合使用,在多Agent協(xié)作場(chǎng)景中同樣發(fā)揮作用。
三、優(yōu)化公用事業(yè)停電管理系統(tǒng),讓企業(yè)AI部署合規(guī)可靠
亞馬遜云科技在官方博客中以房貸審批為例,演示了Amazon Bedrock Guardrails自動(dòng)推理檢查功能的實(shí)際應(yīng)用。
在示例中,用戶只需上傳房貸審批規(guī)則文檔,系統(tǒng)即可將其轉(zhuǎn)化為邏輯定義,并自動(dòng)生成測(cè)試場(chǎng)景。隨后,用戶可以補(bǔ)充手動(dòng)測(cè)試,為每個(gè)用例設(shè)定預(yù)期結(jié)果,并運(yùn)行驗(yàn)證。當(dāng)輸出與規(guī)則不一致時(shí),系統(tǒng)能準(zhǔn)確定位矛盾點(diǎn),幫助用戶調(diào)整策略。
完成驗(yàn)證后,這些策略可直接應(yīng)用到Guardrails中,用于約束AI助手的回答。
這一示例表明,自動(dòng)推理檢查功能能夠把日常業(yè)務(wù)規(guī)則轉(zhuǎn)化為可驗(yàn)證的邏輯,并通過自動(dòng)化測(cè)試和持續(xù)驗(yàn)證機(jī)制,讓AI的輸出始終符合合規(guī)和業(yè)務(wù)要求。
亞馬遜云科技還與普華永道共同開發(fā)了一套解決方案。借助自動(dòng)推理檢查,公用事業(yè)公司可通過以下方式實(shí)現(xiàn)運(yùn)營(yíng)優(yōu)化:
(1)自動(dòng)協(xié)議生成:創(chuàng)建符合監(jiān)管要求的標(biāo)準(zhǔn)化流程。
(2)實(shí)時(shí)計(jì)劃驗(yàn)證:確保應(yīng)急響應(yīng)計(jì)劃符合既定政策。
(3)結(jié)構(gòu)化工作流構(gòu)建:制定基于嚴(yán)重程度的分級(jí)工作流,并明確響應(yīng)目標(biāo)。
該解決方案的核心在于將智能策略管理與優(yōu)化后的響應(yīng)協(xié)議相結(jié)合,運(yùn)用自動(dòng)推理檢查技術(shù)來(lái)評(píng)估AI生成的回復(fù)。一旦發(fā)現(xiàn)回復(fù)無(wú)效或存在可滿足性方面的問題,便會(huì)利用自動(dòng)推理檢查的結(jié)果,優(yōu)化完善或者直接重新編制答案。
這套方案體現(xiàn)了AI如何變革傳統(tǒng)公用事業(yè)運(yùn)營(yíng)模式,通過將數(shù)學(xué)層面的精準(zhǔn)性與實(shí)際需求相結(jié)合,使其更高效、更可靠、更及時(shí)響應(yīng)客戶需求。
Amazon Bedrock Guardrails自動(dòng)推理檢查功能已在美國(guó)東部(俄亥俄州、北弗吉尼亞州)、美國(guó)西部(俄勒岡州)以及歐洲(法蘭克福、愛爾蘭、巴黎)區(qū)域正式可用,按處理文本量計(jì)費(fèi)。
結(jié)語(yǔ):給“AI護(hù)欄”加道“數(shù)學(xué)保險(xiǎn)鎖”
十多年來(lái),亞馬遜云科技在Amazon S3、Amazon IAM、加密引擎等核心云服務(wù)中,率先應(yīng)用自動(dòng)推理技術(shù),用數(shù)學(xué)和邏輯的方法論驗(yàn)證系統(tǒng)的正確性。這些經(jīng)驗(yàn)成為支撐復(fù)雜大規(guī)模云服務(wù)實(shí)現(xiàn)安全和可靠的重要力量之一。
市面上的AI安全手段大多依賴過濾或概率閾值,難以給出確定性保障。Amazon Bedrock Guardrails自動(dòng)推理檢查功能首次具備邏輯可證明的審查能力,讓AI的安全性不僅依賴概率和經(jīng)驗(yàn)判斷,還增加了數(shù)學(xué)邏輯上的可驗(yàn)證能力,從“可信”進(jìn)一步邁向“可證明”。
這相當(dāng)于為AI加了一道“數(shù)學(xué)保險(xiǎn)鎖”,進(jìn)一步提升了AI的可靠性,讓企業(yè)能夠邏輯化地驗(yàn)證AI輸出是否符合政策與規(guī)則,有助于規(guī)避因“幻覺”引發(fā)的事實(shí)性錯(cuò)誤。