基于大數(shù)據(jù)的網(wǎng)絡(luò)異常行為建模方法

2018-03-20 15:28:49 電力信息與通信技術(shù)　點(diǎn)擊量：評論 (0)

隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,網(wǎng)絡(luò)攻擊方式復(fù)雜多變,傳統(tǒng)檢測技術(shù)無法應(yīng)對未知的攻擊模式,因此異常檢測技術(shù)被提出。文章介紹了目前常見的異常檢測技術(shù),并分析了這些技術(shù)的優(yōu)缺點(diǎn),在此基礎(chǔ)上提出了基于大數(shù)據(jù)的網(wǎng)絡(luò)異常行為建模方法并分析了可行性。通過聚類算法識別偏離正常的流量,并對偏

0 引言

隨著網(wǎng)絡(luò)技術(shù)的快速發(fā)展,網(wǎng)絡(luò)空間安全形勢嚴(yán)峻,攻擊方式復(fù)雜多變,如各種病毒、木馬、拒絕服務(wù)、欺騙等攻擊。同時(shí),隨著大數(shù)據(jù)時(shí)代的到來,惡意攻擊行為被掩蓋在數(shù)量龐大的正常網(wǎng)絡(luò)訪問行為之下。若想從海量數(shù)據(jù)中檢測識別出隱藏的攻擊行為,首先要能夠快速、準(zhǔn)確地區(qū)分正常網(wǎng)絡(luò)行為和異常網(wǎng)絡(luò)行為。

傳統(tǒng)的檢測技術(shù)是基于特征簽名或規(guī)則的,對于已知的攻擊行為能夠高效、精確,但無法應(yīng)對新出現(xiàn)的未知攻擊模式。因此,基于誤用和基于異常的檢測技術(shù)被提出,即通過對網(wǎng)絡(luò)行為進(jìn)行建模來區(qū)分正常的網(wǎng)絡(luò)訪問和異常的網(wǎng)絡(luò)攻擊。這2類技術(shù)的核心均是對某類網(wǎng)絡(luò)訪問行為建模,本文將這2類技術(shù)統(tǒng)稱為網(wǎng)絡(luò)行為建模與異常檢測技術(shù)。行為建模與異常檢測技術(shù)可以彌補(bǔ)傳統(tǒng)基于特征簽名或規(guī)則檢測技術(shù)在未知攻擊識別方面的不足,此外,大數(shù)據(jù)時(shí)代下所積累的數(shù)據(jù)量也有利于對網(wǎng)絡(luò)行為建模。

1 網(wǎng)絡(luò)異常行為檢測技術(shù)

1.1 基于核心算法的異常檢測方法

異常檢測是從數(shù)據(jù)中發(fā)現(xiàn)與預(yù)期的正常行為不符合的行為模式,而安全異常則可能是由攻擊者采取的惡意行動所造成的。根據(jù)采用的核心算法不同,異常檢測可分為以下6種方法。

1）統(tǒng)計(jì)方法。將給定的數(shù)據(jù)（通常為正常行為數(shù)據(jù)）擬合成一個(gè)統(tǒng)計(jì)模型,對新觀察項(xiàng)應(yīng)用假設(shè)檢驗(yàn)等統(tǒng)計(jì)檢驗(yàn)手段來判斷其是否符合統(tǒng)計(jì)模型。如果計(jì)算結(jié)果低于閾值,則異常。該方法的優(yōu)點(diǎn)是無需正常網(wǎng)絡(luò)行為的經(jīng)驗(yàn)知識而能自主學(xué)習(xí),缺點(diǎn)是假設(shè)檢驗(yàn)方法和參數(shù)選擇較為困難,易被將攻擊模擬成正常流量的偽裝繞過等。典型的方法包括有HIDE^[1]、LERAD^[2]、PAYL^[3]等。

2）基于分類的方法。通過構(gòu)建一個(gè)顯式或隱式的分類模型,將網(wǎng)絡(luò)流量模式劃分成若干類,它的突出特點(diǎn)是需要標(biāo)注數(shù)據(jù)進(jìn)行行為模型的訓(xùn)練,這個(gè)過程對資源的需求較高。這類方法通常使用包括k-近鄰、決策樹、支持向量機(jī)器等機(jī)器學(xué)習(xí)分類算法。該方法的優(yōu)點(diǎn)是能夠使用新數(shù)據(jù)靈活更新擴(kuò)展檢測系統(tǒng),缺點(diǎn)主要是訓(xùn)練所需的成本較高,且對新攻擊模型無檢測能力。典型的方法包括有ADAM^[4]、DGSOT^[5]、DNIDS^[6]等。

3）基于聚類和離群點(diǎn)的方法。聚類是指將對象劃分成組（稱為簇）的過程,目標(biāo)是使得位于同一個(gè)簇內(nèi)的對象相似度高,而位于不同簇內(nèi)的對象相似度低。常用的聚類算法包括K-Means、DBSCAN等?；谡＞W(wǎng)絡(luò)訪問行為量遠(yuǎn)大于異常行為量的假設(shè),這些離群點(diǎn)和一些包含數(shù)據(jù)點(diǎn)較少的簇被認(rèn)為是異常。聚類算法的優(yōu)點(diǎn)是不需要標(biāo)注數(shù)據(jù),計(jì)算開銷,且性能表現(xiàn)穩(wěn)定,缺點(diǎn)是動態(tài)更新的復(fù)雜度較高,距離量度方式對結(jié)果影響大,且大多僅適用于連續(xù)性數(shù)值屬性（如實(shí)數(shù)型）。這類方法的典型代表有MINDS^[7]、ADMIT^[8]、PAIDS^[9]等。

4）基于軟計(jì)算的方法。基因遺傳算法、人工神經(jīng)網(wǎng)絡(luò)、模糊邏輯、蟻群算法、人工免疫算法等都在此類方法之列,這些方法的不確定性和不精確性與網(wǎng)絡(luò)異常檢測問題的特征恰好符合,能夠良好應(yīng)對數(shù)據(jù)樣本中存在的不一致性問題,而缺點(diǎn)在于大多數(shù)方法存在可擴(kuò)展性問題。這類方法的典型代表包括GBID^[10]、RT-UNNID^[11]、FIRE^[12]等。

5）基于知識的方法。每起網(wǎng)絡(luò)事件都會與一系列預(yù)先定義的規(guī)則或攻擊模式進(jìn)行匹配檢查,目標(biāo)是能夠?qū)⒁阎羰褂靡环N泛化式的表達(dá)來覆蓋,這類方法包括有專家系統(tǒng)方法、基于本體的方法、基于邏輯的方法、基于規(guī)則的方法和狀態(tài)轉(zhuǎn)移分析方法等。這些方法的優(yōu)點(diǎn)是檢測率高、健壯性高、靈活性高,主要缺點(diǎn)是需花費(fèi)大量時(shí)間才能產(chǎn)生有價(jià)值的知識經(jīng)驗(yàn),對于有偏差的數(shù)據(jù)可能會產(chǎn)生大量誤報(bào),動態(tài)更新知識庫難度大等。典型的代表方法包括Snort^[13]、KBTA^[14]等。

6）基于組合學(xué)習(xí)的方法。組合學(xué)習(xí)是指綜合使用多種技術(shù)的方法總稱,主要包含集成方法、融合方法和混合方法3個(gè)子類別。集成方法的基本思想是構(gòu)建若干個(gè)獨(dú)立的分類器,再對它們各自的結(jié)果進(jìn)行加權(quán)組合得出最終的結(jié)論。組合的方法主要有3種,即裝袋、提升和疊加。融合方法主要針對于多數(shù)據(jù)源的場景,可以對來自不同源的數(shù)據(jù)進(jìn)行綜合處理、分析與決策。典型代表方法包括有McPAD^[15]、HMMPayl^[16]、RT-MOVICAB-IDS^[17]等。

1.2 基于HTTP流量的異常檢測方法

基于HTTP流量的異常檢測方法主要是基于對提取出的HTTP數(shù)據(jù)包的分析,可以分為兩大類：一類是基于知識的方法,也就是將已知的攻擊使用某種方式進(jìn)行有效表達(dá),檢測過程即為知識庫匹
配^[18];另一類是基于分類或軟計(jì)算的方法,主要是使用一些機(jī)器學(xué)習(xí)算法或軟計(jì)算方法對提取出的HTTP數(shù)據(jù)包特征進(jìn)行分類檢測模型的訓(xùn)練構(gòu)建^[19]。對HTTP流量提取這些特征后,基于標(biāo)注數(shù)據(jù)集使用決策樹、支持向量機(jī)、人工神經(jīng)網(wǎng)絡(luò)、模糊邏輯等算法進(jìn)行檢測分類模型的離線訓(xùn)練構(gòu)建,即可用于在線的異常檢測。

1.3 基于NetFlow流量的異常檢測方法

基于NetFlow流量的異常檢測中最簡單同時(shí)也最常用的方法就是基于閾值的方法,只要統(tǒng)計(jì)的結(jié)果超過預(yù)先設(shè)定的閾值,則認(rèn)為是異常流量。閾值的設(shè)定直接影響檢測的效果,不適當(dāng)?shù)脑O(shè)置可能會造成大量漏報(bào)或誤報(bào)。為了減少錯(cuò)誤,通常輔助以基于特征比對的方法和基于連接狀態(tài)的方法。

1）基于特征比對的方法通過觀察每一種異常行為并歸納其攻擊特征,從而指導(dǎo)設(shè)定相應(yīng)的閾值。如當(dāng)某個(gè)IP地址符合特征的數(shù)量超過預(yù)設(shè)的閾值時(shí),即判定為異常。

2）基于連接狀態(tài)的方法是指對網(wǎng)絡(luò)整體的連接狀態(tài)進(jìn)行分析,其出發(fā)點(diǎn)是蠕蟲、病毒和DDoS 攻擊等都會在短時(shí)間內(nèi)產(chǎn)生出大量的連接以實(shí)現(xiàn)傳播感染,而在新主機(jī)遭受感染后又會重復(fù)同樣的傳播行為再次產(chǎn)生大量連接,因此可以利用這個(gè)整體連接特征進(jìn)行分析,找出網(wǎng)絡(luò)中存在的異常流量。

1.4 自適應(yīng)的異常檢測方法

自適應(yīng)可以分為兩大類,分別是指閾值自適應(yīng)和模型自適應(yīng)。前者是指根據(jù)實(shí)際的網(wǎng)絡(luò)環(huán)境動態(tài)調(diào)整異常判定的閾值,而后者是指檢測模型可以根據(jù)新出現(xiàn)的攻擊行為進(jìn)行自適應(yīng)學(xué)習(xí)和更新。

1）閾值自適應(yīng)方法的主要出發(fā)點(diǎn)是網(wǎng)絡(luò)流量動態(tài)多變,一個(gè)網(wǎng)絡(luò)不同時(shí)段的流量是不同的,但是各個(gè)時(shí)段又呈現(xiàn)出一定的周期性。閾值自適應(yīng)方法的典型代表是基于時(shí)間序列的方法^[20],包括有自回歸和移動平均模型ARIMA、Hot-Winters線性平滑模型、卡爾曼濾波平滑模型等。

2）模型自適應(yīng)方法的主要特點(diǎn)是檢測模型可以根據(jù)網(wǎng)絡(luò)流量數(shù)據(jù)進(jìn)行自學(xué)習(xí)和更新,從而能夠適應(yīng)動態(tài)變化的網(wǎng)絡(luò)環(huán)境,提高對新攻擊的檢測能力^[21],因此,所有基于學(xué)習(xí)的方法均可劃分到這個(gè)類別中。

2 網(wǎng)絡(luò)行為大數(shù)據(jù)異常行為建模

2.1 建模流程

網(wǎng)絡(luò)行為大數(shù)據(jù)異常行為建模檢測分若干個(gè)階段連續(xù)運(yùn)行,分析在固定長度的連續(xù)時(shí)間窗口內(nèi)抓取的網(wǎng)絡(luò)流量。

2.1.1 數(shù)據(jù)收集

1）首先是使用部署在網(wǎng)絡(luò)中的設(shè)備對網(wǎng)絡(luò)流量進(jìn)行抓取,并根據(jù)HTTP流量、NetFlow記錄等數(shù)據(jù)格式的不同需求進(jìn)行數(shù)據(jù)包的解析或匯總。為了適應(yīng)大數(shù)據(jù)處理的需要,抓取的網(wǎng)絡(luò)流量數(shù)據(jù)將直接輸出到分布式處理平臺（如Apache Hadoop）以便后續(xù)的高效計(jì)算處理。同時(shí)網(wǎng)絡(luò)流量數(shù)據(jù)是一種數(shù)據(jù)流,可以借助如Apache Kafka等工具對其進(jìn)行組織,形成從數(shù)據(jù)源（流量采集設(shè)備）到分布式處理平臺的數(shù)據(jù)管道。

2）抓取到原始流量數(shù)據(jù)后,將按連續(xù)的固定長度時(shí)間窗口對數(shù)據(jù)進(jìn)行多分辨率流聚合。以NetFlow數(shù)據(jù)為例,Flow將在不同級別進(jìn)一步聚合,從粗粒度到細(xì)粒度可以包含的級別有：時(shí)間窗口內(nèi)的所有流量、同源端網(wǎng)絡(luò)前綴、同目的端網(wǎng)絡(luò)前綴、同源端IP地址、同目的端IP地址等。對聚合后的數(shù)據(jù)采用基于時(shí)間序列分析的技術(shù),即變化檢測（change detection）算法來判斷某個(gè)時(shí)間窗口是否存在異常。

2.1.2 特征提取

在上一步驟中被判定為存在異常的時(shí)間窗口包含的所有流量數(shù)據(jù)將作為后續(xù)步驟的輸入,按照源端IP地址和目的端IP地址2種聚合鍵對流量數(shù)據(jù)進(jìn)行聚合及特征提取,且這2個(gè)聚合鍵的選取對應(yīng)著兩大類的網(wǎng)絡(luò)異常：“1-to-N”異常和“N-to-1”異常。

對于每種聚合的網(wǎng)絡(luò)流量數(shù)據(jù),定義并計(jì)算提取的特征分別為：對于HTTP流量,可以是HTTP請求/響應(yīng)數(shù)、請求參數(shù)個(gè)數(shù)/長度、請求參數(shù)字符分布熵等;對于NetFlow,可以是源/目的IP地址數(shù)、數(shù)據(jù)包數(shù)、數(shù)據(jù)包總字節(jié)數(shù)、數(shù)據(jù)包長度分布熵等。為適應(yīng)大數(shù)據(jù)場景,采用分布式計(jì)算引擎（如MapReduce或Spark）來完成這些特征的計(jì)算提取。

2.1.3 網(wǎng)絡(luò)行為建模

提取特征后,即可應(yīng)用聚類算法處理以形成網(wǎng)絡(luò)流量的分簇并計(jì)算相應(yīng)的異常度值,從而完成對正常網(wǎng)絡(luò)行為和異常網(wǎng)絡(luò)行為的建模。本文將采用子空間聚類算法來產(chǎn)生不同的數(shù)據(jù)劃分,再在子空間上應(yīng)用基于密度的聚類算法,在離群點(diǎn)的排序中采用證據(jù)積累聚類技術(shù)。

2.1.4 異常檢測

在得到各個(gè)離群點(diǎn)的不相似性度量及排序之后,異常檢測將通過基于閾值的方法完成,閾值的確定可以采用如下方法。

1）選用固定不相似性度量值,即通過經(jīng)驗(yàn)設(shè)置某個(gè)預(yù)定的不相似度量值作為閾

責(zé)任編輯：售電衡衡

免責(zé)聲明：本文僅代表作者個(gè)人觀點(diǎn)，與本站無關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實(shí)，對本文以及其中全部或者部分內(nèi)容、文字的真實(shí)性、完整性、及時(shí)性本站不作任何保證或承諾，請讀者僅作參考，并請自行核實(shí)相關(guān)內(nèi)容。

我要收藏

個(gè)贊