您所在的位置: 首頁 >
安全研究 >
安全通告 >
針對電商欺詐檢測系統(tǒng)的“中毒攻擊”
幾乎所有高級網絡安全產品的銷售都會告訴你,人工智能已經被用于保護計算基礎設施的許多產品和服務。但是,您可能沒有聽說過機器學習應用程序自身也需要安全防護,而且這些應用在日常服務中變得越來越普遍。
人工智能應用已經在塑造我們的意識(信息繭房)。大型社交媒體平臺普遍使用基于機器學習的推薦機制讓用戶與平臺保持強關聯(lián)、參與內容并投放精準廣告。但很少有人知道,這些系統(tǒng)很容易受到“數(shù)據(jù)中毒攻擊”。
對這些機器學習算法的操縱是司空見慣的,并且存在大量在線服務來幫助完成這些操作。而且,執(zhí)行此操作不需要任何技術技能——只需掏出您的支付寶刷“點贊”、“訂閱”、“關注”、閱讀數(shù)、轉發(fā)、評論或任何能夠影響算法的數(shù)據(jù)。
由于這些攻擊造成的損失仍然難以用金錢量化——而且成本通常由用戶或社會本身承擔——大多數(shù)互聯(lián)網平臺僅在立法者或監(jiān)管機構強制要求時才解決其模型的潛在腐敗(或腐化)問題。
事實上,任何在不可信數(shù)據(jù)上訓練的模型都可能遭受數(shù)據(jù)中毒攻擊。近日,F(xiàn)-Secure的資深數(shù)據(jù)科學家Samuel Marchal介紹了對抗電子商務網站的欺詐檢測算法。如果這種攻擊很容易達成,那么在線零售商就必須重視這個問題。
★ 什么是數(shù)據(jù)中毒?
機器學習模型的好壞取決于用于訓練它的數(shù)據(jù)的質量和數(shù)量。訓練準確的機器學習模型通常需要大量數(shù)據(jù)。為了滿足這種需求,開發(fā)人員可能會求助于可能不受信任的來源,這可能會打開數(shù)據(jù)中毒的大門。
數(shù)據(jù)中毒攻擊旨在通過插入錯誤標記的數(shù)據(jù)來修改模型的訓練集,目的是誘使它做出錯誤的預測。成功的攻擊會損害模型的完整性,從而在模型的預測中產生一致的錯誤。一旦模型中毒,從攻擊中恢復是非常困難的,一些開發(fā)人員甚至可能都不會去嘗試修復。
數(shù)據(jù)中毒攻擊有兩個目標:
? 拒絕服務攻擊(DoS),其目標是降低模型的整體性能。
? 后門/特洛伊木馬攻擊,其目標是降低性能或強制對攻擊者選擇的輸入或輸入集進行特定的、不正確的預測。
★ 對欺詐檢測模型的成功攻擊
研究人員通過與電子商務網站上的欺詐檢測系統(tǒng)類似的示例場景來研究數(shù)據(jù)中毒攻擊。經過訓練的模型應該能夠根據(jù)訂單中的信息預測訂單是合法的(將被支付)還是欺詐(將不被支付)。此類模型將使用零售商可用的最佳數(shù)據(jù)進行訓練,這些數(shù)據(jù)通常來自之前在網站上下的訂單。
針對這種模型的攻擊者可能希望從整體上降低欺詐檢測系統(tǒng)的性能(因此它通常不善于發(fā)現(xiàn)欺詐活動)或發(fā)起精確攻擊,使攻擊者能夠在不被發(fā)現(xiàn)的情況下進行欺詐活動。
為了對該系統(tǒng)發(fā)起攻擊,攻擊者可以向訓練集中的現(xiàn)有數(shù)據(jù)點注入新數(shù)據(jù)點或修改現(xiàn)有數(shù)據(jù)點上的標簽。這可以通過冒充一個用戶或多個用戶并下訂單來完成。攻擊者為某些訂單付款,而不為其他訂單付款。目標是在下一次訓練模型時降低模型的預測準確性,因此欺詐變得更加難以檢測。
在研究人員的電子商務案例中,攻擊者可以通過延遲支付訂單以將其狀態(tài)從欺詐變?yōu)楹戏▉韺崿F(xiàn)標簽翻轉。還可以通過與客戶支持機制的交互來更改標簽。通過對模型及其訓練數(shù)據(jù)有足夠的了解,攻擊者可以生成優(yōu)化的數(shù)據(jù)點,以通過DoS攻擊或后門來降低模型的準確性。
★ 數(shù)據(jù)下毒的藝術
研究者用實驗生成了一個小數(shù)據(jù)集來說明電子商務欺詐檢測模型的工作原理。有了這些數(shù)據(jù),研究者訓練了算法來對該集中的數(shù)據(jù)點進行分類。選擇線性回歸和支持向量機(SVM)模型是因為這些模型通常用于執(zhí)行這些類型的分類操作。
研究者使用梯度上升方法基于拒絕服務或后門攻擊策略以最佳方式生成一個或多個中毒數(shù)據(jù)點,然后研究模型在接受新數(shù)據(jù)訓練后的準確性和決策邊界發(fā)生了什么變化,其中包括中毒的數(shù)據(jù)點。自然,為了實現(xiàn)每個攻擊目標,需要多個中毒數(shù)據(jù)點。
★ 通過中毒攻擊實施電子商務欺詐
研究者的實驗結果發(fā)現(xiàn),與拒絕服務中毒攻擊(兩者均為100)相比,研究者需要引入更少的中毒數(shù)據(jù)點來實現(xiàn)后門中毒攻擊(線性回歸為21,SVM為12)。
線性回歸模型比SVM模型更容易受到拒絕服務攻擊。在中毒數(shù)據(jù)點數(shù)相同的情況下,線性回歸模型的準確率從91.5%降低到56%,而SVM模型的準確率從95%降低到81.5%。請注意,在這種情況下,50%的準確率與擲硬幣相同。
SVM模型更容易受到后門中毒攻擊。由于SVM模型比線性回歸模型具有更高的容量,因此它們的決策邊界可以更好地擬合訓練集中的異常并在其預測中創(chuàng)建“異?!薄A硪环矫?,它需要更多中毒數(shù)據(jù)點來移動線性回歸模型的線性決策邊界以適應這些異常。
● 總結 ●
該實驗發(fā)現(xiàn),只要攻擊者對機器學習和優(yōu)化技術有足夠的了解,中毒攻擊就可以很容易地被攻擊者執(zhí)行。目前已經存在幾個公開可用的庫,以幫助攻擊者創(chuàng)建中毒攻擊。
一般來說,任何使用第三方數(shù)據(jù)訓練的機器學習模型都容易受到此類攻擊。攻擊者可以很容易使用中毒攻擊來獲取潛在的經濟利益。
在研究者的實驗設置中,我們觀察到復雜的模型更容易受到后門攻擊,而簡單的模型更容易受到DoS策略的影響,這表明這些模型從設計上沒有靈丹妙藥來防止所有攻擊技術。鑒于重新訓練對于現(xiàn)實中使用的模型來說非常困難,同時考慮到自動欺詐的較低潛在成本,我們需要增加額外的防御層來保護這些脆弱而重要的機器學習應用。
為了擁有值得信賴的人工智能,它需要是安全的,但是已經在使用的機器學習算法已經帶來了機器無法自行解決的安全挑戰(zhàn)。
來源:GoUpSec