AI安全破局:彩智科技發(fā)布安全對(duì)話風(fēng)控模型,實(shí)現(xiàn)對(duì)高風(fēng)險(xiǎn)的近100%防御,破解智能體應(yīng)用合規(guī)難題
時(shí)間:2025-11-24
作者:小智
分類:新聞
今天,彩智科技正式發(fā)布深知可信的安全對(duì)話風(fēng)控模型(模型組合)并開(kāi)放接口訪問(wèn)。同時(shí)發(fā)布的技術(shù)報(bào)告中測(cè)評(píng)結(jié)果表明,深知風(fēng)控在面對(duì)欺詐誘導(dǎo)、敏感信息竊取等高風(fēng)險(xiǎn)復(fù)雜攻擊場(chǎng)景時(shí),實(shí)現(xiàn)了接近100%的高風(fēng)險(xiǎn)防護(hù)率,顯著優(yōu)于同類安全模型。
隨著生成式人工智能(AGI)加速滲透至金融、醫(yī)療、教育、能源、政務(wù)等高風(fēng)險(xiǎn)核心業(yè)務(wù)場(chǎng)景,其對(duì)話安全風(fēng)險(xiǎn)已成為制約產(chǎn)業(yè)落地的關(guān)鍵挑戰(zhàn)。現(xiàn)有安全方案,如敏感詞過(guò)濾和模型內(nèi)嵌安全訓(xùn)練,在面對(duì)惡意誘導(dǎo)、隱藏條件等新型對(duì)抗性攻擊時(shí),普遍存在漏判、誤判和效率低下的局限性,且易導(dǎo)致核心業(yè)務(wù)能力衰減。
針對(duì)這一問(wèn)題,我們發(fā)布了深知風(fēng)控(DeepKnown-Guard)——一種基于專有模型的大模型對(duì)話安全響應(yīng)框架。該框架采用外部化、低耦合的“防火墻”式設(shè)計(jì),通過(guò) API 調(diào)用實(shí)現(xiàn)安全服務(wù)的熱插拔,徹底解耦安全與業(yè)務(wù)邏輯。深知風(fēng)控的核心創(chuàng)新在于其“風(fēng)險(xiǎn)精準(zhǔn)識(shí)別分類 + 輸出權(quán)威溯源可解釋”的協(xié)同機(jī)制。
在輸入端,框架建立了“安全、不安全、有條件安全、重點(diǎn)關(guān)注”的四分類風(fēng)險(xiǎn)判別體系,實(shí)現(xiàn)了細(xì)粒度的風(fēng)險(xiǎn)識(shí)別。
在輸出端,系統(tǒng)基于動(dòng)態(tài)更新的可信知識(shí)庫(kù)提供安全代答服務(wù),所有回復(fù)均可溯源至官方權(quán)威文件,從根本上杜絕了信息捏造與“幻覺(jué)”問(wèn)題。
技術(shù)報(bào)告“DEEPKNOWN-GUARD: A PROPRIETARY MODELBASED SAFETY RESPONSE FRAMEWORK FOR AI AGENTS”:https://arxiv.org/pdf/2511.03138
數(shù)據(jù)集“DeepKnown-High-Risk-zh-20251105”:https://huggingface.co/datasets/CaiZhiTech/DeepKnown-High-Risk-zh-20251105
Github:https://github.com/deepknown-ai/DeepKnown-Guard
接口指南:https://platform.dknowc.cn/#/apiWord
接口使用:https://platform.dknowc.cn/#/home
隨著大模型應(yīng)用深入到日常工作生活場(chǎng)景,一場(chǎng)隱蔽的安全危機(jī)正悄然而來(lái);生成式人工智能對(duì)話互動(dòng)時(shí)普遍面臨著惡意誘導(dǎo)、隱藏條件等各類風(fēng)險(xiǎn),對(duì)話風(fēng)險(xiǎn)正成為行業(yè)AI落地中的“致命暗礁”。
2025年8月27日,公安部第三研究所數(shù)據(jù)安全技術(shù)研發(fā)中心依據(jù)GB/T45654-2025《網(wǎng)絡(luò)安全技術(shù) 生成式人工智能服務(wù)安全基本要求》對(duì)國(guó)內(nèi)主流大模型商業(yè)化版本開(kāi)展安全測(cè)試,并發(fā)布了測(cè)試結(jié)果[2]。如圖一結(jié)果顯示8類安全維度的不合規(guī)率整體分布在28%至51%之間,其中涉黑灰產(chǎn)、謠言和詐騙類均超過(guò)40%。不難看出,智能體所“仰仗”的各通用大模型本身的安全防護(hù)能力就普遍不足。
問(wèn)題如此嚴(yán)重的原因,是敏感詞規(guī)則防火墻等現(xiàn)有防御手段已跟不上新式AI攻擊手段的迭代:關(guān)鍵詞攔截會(huì)漏判誤判;而主模型在安全訓(xùn)練時(shí),為了不讓能力下降過(guò)大又很難做到高概率防范。
另一方面《生成式人工智能服務(wù)安全基本要求》等監(jiān)管政策對(duì)智能體落地應(yīng)用的安全風(fēng)險(xiǎn)控制“劃了紅線”;
如何嚴(yán)謹(jǐn)又不失效果的解決對(duì)話安全風(fēng)險(xiǎn)問(wèn)題,困擾著所有的智能體開(kāi)發(fā)者。
衡量大模型安全的核心標(biāo)準(zhǔn)是實(shí)戰(zhàn)防御能力。
深知在與Qwen3Guard-Gen-8B[4]、TinyR1-Safety-8B[5]等頭部安全模型最新版本進(jìn)行的專項(xiàng)測(cè)評(píng)中,從風(fēng)險(xiǎn)識(shí)別精度、回復(fù)嚴(yán)謹(jǐn)性等方面展現(xiàn)出優(yōu).
技術(shù)報(bào)告中,測(cè)評(píng)所采用的數(shù)據(jù)集使用TinyR1-Safety-8B技術(shù)報(bào)告所公開(kāi)的測(cè)試數(shù)據(jù)集為主(隨機(jī)抽取其中2000條英文與2000中文),同時(shí)還使用并公開(kāi)了深知可信團(tuán)隊(duì)在實(shí)戰(zhàn)中積累的100條高風(fēng)險(xiǎn)的數(shù)據(jù)。其中,與風(fēng)險(xiǎn)分類模型Qwen3Guard-Gen-8B,按風(fēng)險(xiǎn)召回率測(cè)評(píng)結(jié)果如表二所示:
與風(fēng)險(xiǎn)應(yīng)答模型在TinyR1-Safety-8B的對(duì)比評(píng)測(cè),使用用TinyR1-Safety-8B技術(shù)報(bào)告所使用的安全應(yīng)答的測(cè)評(píng)標(biāo)準(zhǔn),結(jié)果如下(可詳見(jiàn)技術(shù)報(bào)告):
如表三所示,在公開(kāi)中英文安全測(cè)試集中,面對(duì)欺詐誘導(dǎo)、敏感信息竊取等高風(fēng)險(xiǎn)復(fù)雜攻擊場(chǎng)景,同類模型因依賴靜態(tài)知識(shí)出現(xiàn)政策過(guò)時(shí)、捏造合規(guī)依據(jù)、丑聞人物無(wú)感知等問(wèn)題,安全評(píng)分僅74%,而深知依托動(dòng)態(tài)可信知識(shí)庫(kù)有接近100%的高風(fēng)險(xiǎn)防護(hù)率。
*相關(guān)測(cè)試過(guò)程、評(píng)測(cè)標(biāo)準(zhǔn)、測(cè)試數(shù)據(jù)集及實(shí)驗(yàn)結(jié)果均已公開(kāi)發(fā)表于前述技術(shù)報(bào)告與開(kāi)放平臺(tái),評(píng)測(cè)具備可驗(yàn)證性。
傳統(tǒng)的智能體安全控制流程通常采用內(nèi)嵌式(In-built)設(shè)計(jì),將安全模塊與核心業(yè)務(wù)邏輯緊密耦合,其流程復(fù)雜且效率低下,具體體現(xiàn)在以下幾個(gè)關(guān)鍵環(huán)節(jié):
1. 高耦合度與迭代成本/ DeepKnown-Guard
開(kāi)發(fā)者在集成核心業(yè)務(wù)邏輯后,需嘗試生成并內(nèi)嵌安全模塊(如RLHF、關(guān)鍵詞過(guò)濾或自定義規(guī)則)。這種內(nèi)嵌方式導(dǎo)致安全模塊與主模型能力高度耦合。
2. 兼容性沖突與能力衰減
在部署前,必須進(jìn)行安全模塊與業(yè)務(wù)邏輯沖突判定。一旦發(fā)現(xiàn)沖突(“是”路徑),智能體將陷入回滾/重新訓(xùn)練的迭代循環(huán),這不僅耗費(fèi)大量時(shí)間與計(jì)算資源,還可能導(dǎo)致主模型在核心業(yè)務(wù)場(chǎng)景中的能力衰減。流程圖清晰地展示了從沖突到回滾、再到重新嘗試集成的高成本迭代循環(huán)。
3. 防御滯后性與脆弱性
即使通過(guò)兼容性檢查并成功部署,系統(tǒng)仍面臨對(duì)抗性攻擊與Prompt注入的風(fēng)險(xiǎn)。由于安全防護(hù)策略是靜態(tài)內(nèi)嵌的,面對(duì)不斷演化的新型攻擊,極易出現(xiàn)安全防護(hù)失效,需要緊急修復(fù)并再次進(jìn)入耗時(shí)耗力的迭代訓(xùn)練循環(huán)。
深知風(fēng)控DeepKnown-Guard框架(見(jiàn)上圖二)代表了一種基于專用模型組合的、外部化、低耦合的安全防護(hù)新范式,旨在通過(guò)API調(diào)用實(shí)現(xiàn)安全服務(wù)的熱插拔(Hot-Pluggable),從而徹底解耦安全與業(yè)務(wù)邏輯。
1. 聚焦業(yè)務(wù)創(chuàng)新
在DeepKnown-Guard框架下,智能體開(kāi)發(fā)流程被大幅簡(jiǎn)化。開(kāi)發(fā)者可以專注于核心業(yè)務(wù)邏輯實(shí)現(xiàn),無(wú)需在開(kāi)發(fā)初期考慮復(fù)雜的安全模塊內(nèi)嵌問(wèn)題,實(shí)現(xiàn)快速部署上線。
2. API驅(qū)動(dòng)的實(shí)時(shí)風(fēng)險(xiǎn)判別
智能體通過(guò)DeepKnown-Guard API調(diào)用實(shí)時(shí)接入安全判斷服務(wù)。該API設(shè)計(jì)為低耦合的外部服務(wù),核心參數(shù)如sessionId(用于多輪對(duì)話上下文追蹤)和area(用于地域化知識(shí)服務(wù)與風(fēng)險(xiǎn)識(shí)別)確保了判別的精準(zhǔn)性與動(dòng)態(tài)性。
3. 四分類體系的精準(zhǔn)風(fēng)險(xiǎn)識(shí)別
DeepKnown-Guard框架的核心在于其四分類風(fēng)險(xiǎn)判別體系:Safe(安全)、Conditionally Safe(有條件安全)、Unsafe(不安全)和Focus(重點(diǎn)關(guān)注)。這種細(xì)粒度的分類打破了傳統(tǒng)“非黑即白”的二元判斷,為后續(xù)的風(fēng)險(xiǎn)處置提供了精確依據(jù)。
4. 安全代答與業(yè)務(wù)穩(wěn)定運(yùn)行
對(duì)于被判定為Safe的內(nèi)容,智能體將正常響應(yīng),執(zhí)行業(yè)務(wù)邏輯。對(duì)于其余三類風(fēng)險(xiǎn)(Conditionally Safe/Unsafe/Focus),系統(tǒng)將觸發(fā)安全代答/攔截機(jī)制(Safety Response)。該機(jī)制提供Active(積極型)和Conservative(穩(wěn)妥型)兩種模式,基于可信知識(shí)庫(kù)進(jìn)行溯源回復(fù),實(shí)現(xiàn)對(duì)高風(fēng)險(xiǎn)內(nèi)容的近100%防御。
5. 高效與持續(xù)安全保障
這種外部化設(shè)計(jì)避免了傳統(tǒng)范式中的迭代循環(huán),確保了業(yè)務(wù)穩(wěn)定運(yùn)行與持續(xù)安全保障。安全策略的更新和迭代DeepKnown-Guard框架獨(dú)立完成,對(duì)智能體業(yè)務(wù)系統(tǒng)零影響,實(shí)現(xiàn)了零業(yè)務(wù)能力衰減。
傳統(tǒng)大模型安全防御往往在于把風(fēng)險(xiǎn)判定簡(jiǎn)化為“安全/不安全”的二元選擇——要么過(guò)度攔截影響體驗(yàn),要么漏判風(fēng)險(xiǎn)埋下隱患。深知重構(gòu)安全防護(hù)邏輯,建立“安全(Safe)、不安全(Unsafe)、有條件安全(Conditionally Safe)、重點(diǎn)關(guān)注(Focus)”的四類體系,有針對(duì)性的處置風(fēng)險(xiǎn)。如下:
這一精細(xì)化的分類,使得企業(yè)能夠在保障安全的前提下,最大限度地提升用戶體驗(yàn),避免了“過(guò)度攔截”的弊端。
針對(duì)識(shí)別出的風(fēng)險(xiǎn)問(wèn)題,深知風(fēng)控提供安全代答服務(wù),確保在交流中輸出的內(nèi)容嚴(yán)格符合法規(guī)與主流價(jià)值觀。其核心在于:
1. 全量規(guī)章知識(shí)庫(kù)
知識(shí)庫(kù)覆蓋全國(guó)337個(gè)地級(jí)及以上城市的法律、政策、行業(yè)標(biāo)準(zhǔn)規(guī)范等,并保持動(dòng)態(tài)更新。如下所示:
2. 權(quán)威溯源,兩種代答模式靈活選擇
上億條精細(xì)治理的知識(shí)點(diǎn)均可溯源至官方權(quán)威網(wǎng)站,徹底杜絕信息捏造與“幻覺(jué)”問(wèn)題。同時(shí)提供兩種代答模式靈活選擇:
積極型(active):對(duì)各類風(fēng)險(xiǎn)問(wèn)題進(jìn)行合規(guī)可控的交流回應(yīng);可以在電商、旅游、娛樂(lè)等智能體中使用,有很好互動(dòng)性。深知的目標(biāo),是讓這些平時(shí)很大眾化的智能體,在碰到用戶刻意用“敏感”問(wèn)題挑戰(zhàn)時(shí),突然變身成正能量朋友,不躲避的按主流價(jià)值觀“娓娓道來(lái)”,進(jìn)行安全又積極的交流。
穩(wěn)妥型(conservative):適用于政務(wù)、司法等嚴(yán)肅場(chǎng)景,部分敏感問(wèn)題僅輸出提示性內(nèi)容,嚴(yán)守安全底線。尤其是,深知已有案例實(shí)戰(zhàn),模型使用方已在網(wǎng)信、公安等有關(guān)部門組織的生成式人工智能安全測(cè)評(píng)中,取得近100%防護(hù)的優(yōu)異效果。
深知提供簡(jiǎn)潔易用的API接口與多語(yǔ)言調(diào)用示例(Python、cURL等),開(kāi)發(fā)者無(wú)需復(fù)雜配置,獲取api-key后即可快速接入,并集成到現(xiàn)有業(yè)務(wù)系統(tǒng),大幅降低風(fēng)控開(kāi)發(fā)成本。
具體來(lái)說(shuō),對(duì)于教育培訓(xùn)、導(dǎo)游導(dǎo)購(gòu)、醫(yī)療康養(yǎng)、客戶服務(wù)、行業(yè)咨詢、金融理財(cái)?shù)阮I(lǐng)域大模型與智能體,可以不再為AI對(duì)話安全問(wèn)題而困擾。
通過(guò)簡(jiǎn)單調(diào)用深知接口,智能體可以先讓深知來(lái)判斷訴求表達(dá)的安全情況,在有風(fēng)險(xiǎn)時(shí)直接拒答或讓深知返回代答回復(fù),并在無(wú)風(fēng)險(xiǎn)時(shí)自行場(chǎng)景交互。
以上過(guò)程不僅在一次調(diào)用內(nèi)完成,還可進(jìn)一步通過(guò)參數(shù)配置,來(lái)使用深知的上下文理解、流式輸出、地域識(shí)別本地化服務(wù)等功能。
對(duì)企業(yè)來(lái)說(shuō),大模型安全風(fēng)控的痛點(diǎn)不僅是“防不住”,還有“用不起”——搭建定制化防護(hù)架構(gòu)、持續(xù)迭代加固模型,需要投入資金和人力,并且還容易引起模型處理核心場(chǎng)景時(shí)的能力下降。
深知將復(fù)雜的安全技術(shù)轉(zhuǎn)化為“低門檻可隨時(shí)調(diào)用”的服務(wù),大幅降低AI落地成本。開(kāi)發(fā)者無(wú)需精通模型安全技術(shù),也不用改造現(xiàn)有系統(tǒng);只需通過(guò)API接口在線調(diào)用深知,就能快速激活全套安全防御能力;從而將更多精力投入AI驅(qū)動(dòng)的業(yè)務(wù)創(chuàng)新。
深知風(fēng)控(DeepKnown-Guard)的底層技術(shù)——「深知可信」知識(shí)模型,已在多個(gè)重大實(shí)戰(zhàn)項(xiàng)目中得到驗(yàn)證和應(yīng)用,充分證明了其在保障 AI 安全與合規(guī)方面的能力。
DeepKnown-Guard 框架通過(guò)技術(shù)解耦和 API 服務(wù)化,將 AI 安全防護(hù)從高成本、高耦合的內(nèi)嵌式流程,轉(zhuǎn)化為低成本、高防御率的外部化服務(wù),為智能體的大規(guī)模商業(yè)應(yīng)用提供了堅(jiān)實(shí)的安全底座。
安全,已成為智能體進(jìn)入核心場(chǎng)景的“入場(chǎng)券”。深知風(fēng)控以其創(chuàng)新的“輸入分類+輸出溯源”技術(shù),不僅解決了企業(yè)AI合規(guī)的燃眉之急,更以“安全托底、業(yè)務(wù)創(chuàng)新”的模式,加速了大模型在各行業(yè)的規(guī)模化應(yīng)用。
彩智科技在國(guó)家能源集團(tuán)、北京控股等大型企業(yè)的AI智能體建設(shè),以及國(guó)務(wù)院政策答問(wèn)平臺(tái)、廣東“粵政易”AI智能辦公助手等重大人工智能應(yīng)用項(xiàng)目的成功案例,積累了豐富的AI安全風(fēng)控經(jīng)驗(yàn)。
彩智科技如今通過(guò)將復(fù)雜的安全技術(shù)轉(zhuǎn)化為低門檻的深知風(fēng)控API 服務(wù),將助力智能體從“追求功能炫酷”向“安全實(shí)用落地”的成熟轉(zhuǎn)型,成為智能體進(jìn)入核心場(chǎng)景的“新基建”。