基于大數(shù)據(jù)的網(wǎng)絡(luò)異常行為建模方法
0 引言
隨著網(wǎng)絡(luò)技術(shù)的快速發(fā)展,網(wǎng)絡(luò)空間安全形勢(shì)嚴(yán)峻,攻擊方式復(fù)雜多變,如各種病毒、木馬、拒絕服務(wù)、欺騙等攻擊。同時(shí),隨著大數(shù)據(jù)時(shí)代的到來(lái),惡意攻擊行為被掩蓋在數(shù)量龐大的正常網(wǎng)絡(luò)訪問(wèn)行為之下。若想從海量數(shù)據(jù)中檢測(cè)識(shí)別出隱藏的攻擊行為,首先要能夠快速、準(zhǔn)確地區(qū)分正常網(wǎng)絡(luò)行為和異常網(wǎng)絡(luò)行為。
傳統(tǒng)的檢測(cè)技術(shù)是基于特征簽名或規(guī)則的,對(duì)于已知的攻擊行為能夠高效、精確,但無(wú)法應(yīng)對(duì)新出現(xiàn)的未知攻擊模式。因此,基于誤用和基于異常的檢測(cè)技術(shù)被提出,即通過(guò)對(duì)網(wǎng)絡(luò)行為進(jìn)行建模來(lái)區(qū)分正常的網(wǎng)絡(luò)訪問(wèn)和異常的網(wǎng)絡(luò)攻擊。這2類(lèi)技術(shù)的核心均是對(duì)某類(lèi)網(wǎng)絡(luò)訪問(wèn)行為建模,本文將這2類(lèi)技術(shù)統(tǒng)稱(chēng)為網(wǎng)絡(luò)行為建模與異常檢測(cè)技術(shù)。行為建模與異常檢測(cè)技術(shù)可以彌補(bǔ)傳統(tǒng)基于特征簽名或規(guī)則檢測(cè)技術(shù)在未知攻擊識(shí)別方面的不足,此外,大數(shù)據(jù)時(shí)代下所積累的數(shù)據(jù)量也有利于對(duì)網(wǎng)絡(luò)行為建模。
1 網(wǎng)絡(luò)異常行為檢測(cè)技術(shù)
1.1 基于核心算法的異常檢測(cè)方法
異常檢測(cè)是從數(shù)據(jù)中發(fā)現(xiàn)與預(yù)期的正常行為不符合的行為模式,而安全異常則可能是由攻擊者采取的惡意行動(dòng)所造成的。根據(jù)采用的核心算法不同,異常檢測(cè)可分為以下6種方法。
1)統(tǒng)計(jì)方法。將給定的數(shù)據(jù)(通常為正常行為數(shù)據(jù))擬合成一個(gè)統(tǒng)計(jì)模型,對(duì)新觀察項(xiàng)應(yīng)用假設(shè)檢驗(yàn)等統(tǒng)計(jì)檢驗(yàn)手段來(lái)判斷其是否符合統(tǒng)計(jì)模型。如果計(jì)算結(jié)果低于閾值,則異常。該方法的優(yōu)點(diǎn)是無(wú)需正常網(wǎng)絡(luò)行為的經(jīng)驗(yàn)知識(shí)而能自主學(xué)習(xí),缺點(diǎn)是假設(shè)檢驗(yàn)方法和參數(shù)選擇較為困難,易被將攻擊模擬成正常流量的偽裝繞過(guò)等。典型的方法包括有HIDE[1]、LERAD[2]、PAYL[3]等。
2)基于分類(lèi)的方法。通過(guò)構(gòu)建一個(gè)顯式或隱式的分類(lèi)模型,將網(wǎng)絡(luò)流量模式劃分成若干類(lèi),它的突出特點(diǎn)是需要標(biāo)注數(shù)據(jù)進(jìn)行行為模型的訓(xùn)練,這個(gè)過(guò)程對(duì)資源的需求較高。這類(lèi)方法通常使用包括k-近鄰、決策樹(shù)、支持向量機(jī)器等機(jī)器學(xué)習(xí)分類(lèi)算法。該方法的優(yōu)點(diǎn)是能夠使用新數(shù)據(jù)靈活更新擴(kuò)展檢測(cè)系統(tǒng),缺點(diǎn)主要是訓(xùn)練所需的成本較高,且對(duì)新攻擊模型無(wú)檢測(cè)能力。典型的方法包括有ADAM[4]、DGSOT[5]、DNIDS[6]等。
3)基于聚類(lèi)和離群點(diǎn)的方法。聚類(lèi)是指將對(duì)象劃分成組(稱(chēng)為簇)的過(guò)程,目標(biāo)是使得位于同一個(gè)簇內(nèi)的對(duì)象相似度高,而位于不同簇內(nèi)的對(duì)象相似度低。常用的聚類(lèi)算法包括K-Means、DBSCAN等?;谡>W(wǎng)絡(luò)訪問(wèn)行為量遠(yuǎn)大于異常行為量的假設(shè),這些離群點(diǎn)和一些包含數(shù)據(jù)點(diǎn)較少的簇被認(rèn)為是異常。聚類(lèi)算法的優(yōu)點(diǎn)是不需要標(biāo)注數(shù)據(jù),計(jì)算開(kāi)銷(xiāo),且性能表現(xiàn)穩(wěn)定,缺點(diǎn)是動(dòng)態(tài)更新的復(fù)雜度較高,距離量度方式對(duì)結(jié)果影響大,且大多僅適用于連續(xù)性數(shù)值屬性(如實(shí)數(shù)型)。這類(lèi)方法的典型代表有MINDS[7]、ADMIT[8]、PAIDS[9]等。
4)基于軟計(jì)算的方法?;蜻z傳算法、人工神經(jīng)網(wǎng)絡(luò)、模糊邏輯、蟻群算法、人工免疫算法等都在此類(lèi)方法之列,這些方法的不確定性和不精確性與網(wǎng)絡(luò)異常檢測(cè)問(wèn)題的特征恰好符合,能夠良好應(yīng)對(duì)數(shù)據(jù)樣本中存在的不一致性問(wèn)題,而缺點(diǎn)在于大多數(shù)方法存在可擴(kuò)展性問(wèn)題。這類(lèi)方法的典型代表包括GBID[10]、RT-UNNID[11]、FIRE[12]等。
5)基于知識(shí)的方法。每起網(wǎng)絡(luò)事件都會(huì)與一系列預(yù)先定義的規(guī)則或攻擊模式進(jìn)行匹配檢查,目標(biāo)是能夠?qū)⒁阎羰褂靡环N泛化式的表達(dá)來(lái)覆蓋,這類(lèi)方法包括有專(zhuān)家系統(tǒng)方法、基于本體的方法、基于邏輯的方法、基于規(guī)則的方法和狀態(tài)轉(zhuǎn)移分析方法等。這些方法的優(yōu)點(diǎn)是檢測(cè)率高、健壯性高、靈活性高,主要缺點(diǎn)是需花費(fèi)大量時(shí)間才能產(chǎn)生有價(jià)值的知識(shí)經(jīng)驗(yàn),對(duì)于有偏差的數(shù)據(jù)可能會(huì)產(chǎn)生大量誤報(bào),動(dòng)態(tài)更新知識(shí)庫(kù)難度大等。典型的代表方法包括Snort[13]、KBTA[14]等。
6)基于組合學(xué)習(xí)的方法。組合學(xué)習(xí)是指綜合使用多種技術(shù)的方法總稱(chēng),主要包含集成方法、融合方法和混合方法3個(gè)子類(lèi)別。集成方法的基本思想是構(gòu)建若干個(gè)獨(dú)立的分類(lèi)器,再對(duì)它們各自的結(jié)果進(jìn)行加權(quán)組合得出最終的結(jié)論。組合的方法主要有3種,即裝袋 、提升和疊加 。融合方法主要針對(duì)于多數(shù)據(jù)源的場(chǎng)景,可以對(duì)來(lái)自不同源的數(shù)據(jù)進(jìn)行綜合處理、分析與決策。典型代表方法包括有McPAD[15]、HMMPayl[16]、RT-MOVICAB-IDS[17]等。
1.2 基于HTTP流量的異常檢測(cè)方法
基于HTTP流量的異常檢測(cè)方法主要是基于對(duì)提取出的HTTP數(shù)據(jù)包的分析,可以分為兩大類(lèi):一類(lèi)是基于知識(shí)的方法,也就是將已知的攻擊使用某種方式進(jìn)行有效表達(dá),檢測(cè)過(guò)程即為知識(shí)庫(kù)匹
配[18];另一類(lèi)是基于分類(lèi)或軟計(jì)算的方法,主要是使用一些機(jī)器學(xué)習(xí)算法或軟計(jì)算方法對(duì)提取出的HTTP數(shù)據(jù)包特征進(jìn)行分類(lèi)檢測(cè)模型的訓(xùn)練構(gòu)建[19]。對(duì)HTTP流量提取這些特征后,基于標(biāo)注數(shù)據(jù)集使用決策樹(shù)、支持向量機(jī)、人工神經(jīng)網(wǎng)絡(luò)、模糊邏輯等算法進(jìn)行檢測(cè)分類(lèi)模型的離線訓(xùn)練構(gòu)建,即可用于在線的異常檢測(cè)。
1.3 基于NetFlow流量的異常檢測(cè)方法
基于NetFlow流量的異常檢測(cè)中最簡(jiǎn)單同時(shí)也最常用的方法就是基于閾值的方法,只要統(tǒng)計(jì)的結(jié)果超過(guò)預(yù)先設(shè)定的閾值,則認(rèn)為是異常流量。閾值的設(shè)定直接影響檢測(cè)的效果,不適當(dāng)?shù)脑O(shè)置可能會(huì)造成大量漏報(bào)或誤報(bào)。為了減少錯(cuò)誤,通常輔助以基于特征比對(duì)的方法和基于連接狀態(tài)的方法。
1)基于特征比對(duì)的方法通過(guò)觀察每一種異常行為并歸納其攻擊特征,從而指導(dǎo)設(shè)定相應(yīng)的閾值。如當(dāng)某個(gè)IP地址符合特征的數(shù)量超過(guò)預(yù)設(shè)的閾值時(shí),即判定為異常。
2)基于連接狀態(tài)的方法是指對(duì)網(wǎng)絡(luò)整體的連接狀態(tài)進(jìn)行分析,其出發(fā)點(diǎn)是蠕蟲(chóng)、病毒和DDoS 攻擊等都會(huì)在短時(shí)間內(nèi)產(chǎn)生出大量的連接以實(shí)現(xiàn)傳播感染,而在新主機(jī)遭受感染后又會(huì)重復(fù)同樣的傳播行為再次產(chǎn)生大量連接,因此可以利用這個(gè)整體連接特征進(jìn)行分析,找出網(wǎng)絡(luò)中存在的異常流量。
1.4 自適應(yīng)的異常檢測(cè)方法
自適應(yīng)可以分為兩大類(lèi),分別是指閾值自適應(yīng)和模型自適應(yīng)。前者是指根據(jù)實(shí)際的網(wǎng)絡(luò)環(huán)境動(dòng)態(tài)調(diào)整異常判定的閾值,而后者是指檢測(cè)模型可以根據(jù)新出現(xiàn)的攻擊行為進(jìn)行自適應(yīng)學(xué)習(xí)和更新。
1)閾值自適應(yīng)方法的主要出發(fā)點(diǎn)是網(wǎng)絡(luò)流量動(dòng)態(tài)多變,一個(gè)網(wǎng)絡(luò)不同時(shí)段的流量是不同的,但是各個(gè)時(shí)段又呈現(xiàn)出一定的周期性。閾值自適應(yīng)方法的典型代表是基于時(shí)間序列的方法[20],包括有自回歸和移動(dòng)平均模型ARIMA、Hot-Winters線性平滑模型、卡爾曼濾波平滑模型等。
2)模型自適應(yīng)方法的主要特點(diǎn)是檢測(cè)模型可以根據(jù)網(wǎng)絡(luò)流量數(shù)據(jù)進(jìn)行自學(xué)習(xí)和更新,從而能夠適應(yīng)動(dòng)態(tài)變化的網(wǎng)絡(luò)環(huán)境,提高對(duì)新攻擊的檢測(cè)能力[21],因此,所有基于學(xué)習(xí)的方法均可劃分到這個(gè)類(lèi)別中。
2 網(wǎng)絡(luò)行為大數(shù)據(jù)異常行為建模
2.1 建模流程
網(wǎng)絡(luò)行為大數(shù)據(jù)異常行為建模檢測(cè)分若干個(gè)階段連續(xù)運(yùn)行,分析在固定長(zhǎng)度的連續(xù)時(shí)間窗口內(nèi)抓取的網(wǎng)絡(luò)流量。
2.1.1 數(shù)據(jù)收集
1)首先是使用部署在網(wǎng)絡(luò)中的設(shè)備對(duì)網(wǎng)絡(luò)流量進(jìn)行抓取,并根據(jù)HTTP流量、NetFlow記錄等數(shù)據(jù)格式的不同需求進(jìn)行數(shù)據(jù)包的解析或匯總。為了適應(yīng)大數(shù)據(jù)處理的需要,抓取的網(wǎng)絡(luò)流量數(shù)據(jù)將直接輸出到分布式處理平臺(tái)(如Apache Hadoop)以便后續(xù)的高效計(jì)算處理。同時(shí)網(wǎng)絡(luò)流量數(shù)據(jù)是一種數(shù)據(jù)流,可以借助如Apache Kafka等工具對(duì)其進(jìn)行組織,形成從數(shù)據(jù)源(流量采集設(shè)備)到分布式處理平臺(tái)的數(shù)據(jù)管道。
2)抓取到原始流量數(shù)據(jù)后,將按連續(xù)的固定長(zhǎng)度時(shí)間窗口對(duì)數(shù)據(jù)進(jìn)行多分辨率流聚合。以NetFlow數(shù)據(jù)為例,Flow將在不同級(jí)別進(jìn)一步聚合,從粗粒度到細(xì)粒度可以包含的級(jí)別有:時(shí)間窗口內(nèi)的所有流量、同源端網(wǎng)絡(luò)前綴、同目的端網(wǎng)絡(luò)前綴、同源端IP地址、同目的端IP地址等。對(duì)聚合后的數(shù)據(jù)采用基于時(shí)間序列分析的技術(shù),即變化檢測(cè)(change detection)算法來(lái)判斷某個(gè)時(shí)間窗口是否存在異常。
2.1.2 特征提取
在上一步驟中被判定為存在異常的時(shí)間窗口包含的所有流量數(shù)據(jù)將作為后續(xù)步驟的輸入,按照源端IP地址和目的端IP地址2種聚合鍵對(duì)流量數(shù)據(jù)進(jìn)行聚合及特征提取,且這2個(gè)聚合鍵的選取對(duì)應(yīng)著兩大類(lèi)的網(wǎng)絡(luò)異常:“1-to-
對(duì)于每種聚合的網(wǎng)絡(luò)流量數(shù)據(jù),定義并計(jì)算提取的特征分別為:對(duì)于HTTP流量,可以是HTTP請(qǐng)求/響應(yīng)數(shù)、請(qǐng)求參數(shù)個(gè)數(shù)/長(zhǎng)度、請(qǐng)求參數(shù)字符分布熵等;對(duì)于NetFlow,可以是源/目的IP地址數(shù)、數(shù)據(jù)包數(shù)、數(shù)據(jù)包總字節(jié)數(shù)、數(shù)據(jù)包長(zhǎng)度分布熵等。為適應(yīng)大數(shù)據(jù)場(chǎng)景,采用分布式計(jì)算引擎(如MapReduce或Spark)來(lái)完成這些特征的計(jì)算提取。
2.1.3 網(wǎng)絡(luò)行為建模
提取特征后,即可應(yīng)用聚類(lèi)算法處理以形成網(wǎng)絡(luò)流量的分簇并計(jì)算相應(yīng)的異常度值,從而完成對(duì)正常網(wǎng)絡(luò)行為和異常網(wǎng)絡(luò)行為的建模。本文將采用子空間聚類(lèi)算法來(lái)產(chǎn)生不同的數(shù)據(jù)劃分,再在子空間上應(yīng)用基于密度的聚類(lèi)算法,在離群點(diǎn)的排序中采用證據(jù)積累聚類(lèi)技術(shù)。
2.1.4 異常檢測(cè)
在得到各個(gè)離群點(diǎn)的不相似性度量及排序之后,異常檢測(cè)將通過(guò)基于閾值的方法完成,閾值的確定可以采用如下方法。
1)選用固定不相似性度量值,即通過(guò)經(jīng)驗(yàn)設(shè)置某個(gè)預(yù)定的不相似度量值作為閾

責(zé)任編輯:售電衡衡
-
權(quán)威發(fā)布 | 新能源汽車(chē)產(chǎn)業(yè)頂層設(shè)計(jì)落地:鼓勵(lì)“光儲(chǔ)充放”,有序推進(jìn)氫燃料供給體系建設(shè)
2020-11-03新能源,汽車(chē),產(chǎn)業(yè),設(shè)計(jì) -
中國(guó)自主研制的“人造太陽(yáng)”重力支撐設(shè)備正式啟運(yùn)
2020-09-14核聚變,ITER,核電 -
探索 | 既耗能又可供能的數(shù)據(jù)中心 打造融合型綜合能源系統(tǒng)
2020-06-16綜合能源服務(wù),新能源消納,能源互聯(lián)網(wǎng)
-
新基建助推 數(shù)據(jù)中心建設(shè)將迎爆發(fā)期
2020-06-16數(shù)據(jù)中心,能源互聯(lián)網(wǎng),電力新基建 -
泛在電力物聯(lián)網(wǎng)建設(shè)下看電網(wǎng)企業(yè)數(shù)據(jù)變現(xiàn)之路
2019-11-12泛在電力物聯(lián)網(wǎng) -
泛在電力物聯(lián)網(wǎng)建設(shè)典型實(shí)踐案例
2019-10-15泛在電力物聯(lián)網(wǎng)案例
-
新基建之充電樁“火”了 想進(jìn)這個(gè)行業(yè)要“心里有底”
2020-06-16充電樁,充電基礎(chǔ)設(shè)施,電力新基建 -
燃料電池汽車(chē)駛?cè)雽こ0傩占疫€要多久?
-
備戰(zhàn)全面電動(dòng)化 多部委及央企“定調(diào)”充電樁配套節(jié)奏
-
權(quán)威發(fā)布 | 新能源汽車(chē)產(chǎn)業(yè)頂層設(shè)計(jì)落地:鼓勵(lì)“光儲(chǔ)充放”,有序推進(jìn)氫燃料供給體系建設(shè)
2020-11-03新能源,汽車(chē),產(chǎn)業(yè),設(shè)計(jì) -
中國(guó)自主研制的“人造太陽(yáng)”重力支撐設(shè)備正式啟運(yùn)
2020-09-14核聚變,ITER,核電 -
能源革命和電改政策紅利將長(zhǎng)期助力儲(chǔ)能行業(yè)發(fā)展
-
探索 | 既耗能又可供能的數(shù)據(jù)中心 打造融合型綜合能源系統(tǒng)
2020-06-16綜合能源服務(wù),新能源消納,能源互聯(lián)網(wǎng) -
5G新基建助力智能電網(wǎng)發(fā)展
2020-06-125G,智能電網(wǎng),配電網(wǎng) -
從智能電網(wǎng)到智能城市
-
山西省首座電力與通信共享電力鐵塔試點(diǎn)成功
-
中國(guó)電建公司公共資源交易服務(wù)平臺(tái)摘得電力創(chuàng)新大獎(jiǎng)
-
電力系統(tǒng)對(duì)UPS的技術(shù)要求