超碰人操,粗暴进入蹂躏视频在线观看,精品一区二区三区在线视频,久久国产精品影院,下载国产一级黄色片,中文字幕一区二区三区在线视频,a√天堂资源福利www

基于大數(shù)據(jù)的網(wǎng)絡(luò)異常行為建模方法

2018-03-20 15:28:49 電力信息與通信技術(shù)  點(diǎn)擊量: 評(píng)論 (0)
隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,網(wǎng)絡(luò)攻擊方式復(fù)雜多變,傳統(tǒng)檢測(cè)技術(shù)無(wú)法應(yīng)對(duì)未知的攻擊模式,因此異常檢測(cè)技術(shù)被提出。文章介紹了目前常見(jiàn)的異常檢測(cè)技術(shù),并分析了這些技術(shù)的優(yōu)缺點(diǎn),在此基礎(chǔ)上提出了基于大數(shù)據(jù)的網(wǎng)絡(luò)異常行為建模方法并分析了可行性。通過(guò)聚類(lèi)算法識(shí)別偏離正常的流量,并對(duì)偏

0 引言

隨著網(wǎng)絡(luò)技術(shù)的快速發(fā)展,網(wǎng)絡(luò)空間安全形勢(shì)嚴(yán)峻,攻擊方式復(fù)雜多變,如各種病毒、木馬、拒絕服務(wù)、欺騙等攻擊。同時(shí),隨著大數(shù)據(jù)時(shí)代的到來(lái),惡意攻擊行為被掩蓋在數(shù)量龐大的正常網(wǎng)絡(luò)訪問(wèn)行為之下。若想從海量數(shù)據(jù)中檢測(cè)識(shí)別出隱藏的攻擊行為,首先要能夠快速、準(zhǔn)確地區(qū)分正常網(wǎng)絡(luò)行為和異常網(wǎng)絡(luò)行為。

傳統(tǒng)的檢測(cè)技術(shù)是基于特征簽名或規(guī)則的,對(duì)于已知的攻擊行為能夠高效、精確,但無(wú)法應(yīng)對(duì)新出現(xiàn)的未知攻擊模式。因此,基于誤用和基于異常的檢測(cè)技術(shù)被提出,即通過(guò)對(duì)網(wǎng)絡(luò)行為進(jìn)行建模來(lái)區(qū)分正常的網(wǎng)絡(luò)訪問(wèn)和異常的網(wǎng)絡(luò)攻擊。這2類(lèi)技術(shù)的核心均是對(duì)某類(lèi)網(wǎng)絡(luò)訪問(wèn)行為建模,本文將這2類(lèi)技術(shù)統(tǒng)稱(chēng)為網(wǎng)絡(luò)行為建模與異常檢測(cè)技術(shù)。行為建模與異常檢測(cè)技術(shù)可以彌補(bǔ)傳統(tǒng)基于特征簽名或規(guī)則檢測(cè)技術(shù)在未知攻擊識(shí)別方面的不足,此外,大數(shù)據(jù)時(shí)代下所積累的數(shù)據(jù)量也有利于對(duì)網(wǎng)絡(luò)行為建模。

 1 網(wǎng)絡(luò)異常行為檢測(cè)技術(shù)

1.1 基于核心算法的異常檢測(cè)方法

異常檢測(cè)是從數(shù)據(jù)中發(fā)現(xiàn)與預(yù)期的正常行為不符合的行為模式,而安全異常則可能是由攻擊者采取的惡意行動(dòng)所造成的。根據(jù)采用的核心算法不同,異常檢測(cè)可分為以下6種方法。

1)統(tǒng)計(jì)方法。將給定的數(shù)據(jù)(通常為正常行為數(shù)據(jù))擬合成一個(gè)統(tǒng)計(jì)模型,對(duì)新觀察項(xiàng)應(yīng)用假設(shè)檢驗(yàn)等統(tǒng)計(jì)檢驗(yàn)手段來(lái)判斷其是否符合統(tǒng)計(jì)模型。如果計(jì)算結(jié)果低于閾值,則異常。該方法的優(yōu)點(diǎn)是無(wú)需正常網(wǎng)絡(luò)行為的經(jīng)驗(yàn)知識(shí)而能自主學(xué)習(xí),缺點(diǎn)是假設(shè)檢驗(yàn)方法和參數(shù)選擇較為困難,易被將攻擊模擬成正常流量的偽裝繞過(guò)等。典型的方法包括有HIDE[1]、LERAD[2]、PAYL[3]等。

2)基于分類(lèi)的方法。通過(guò)構(gòu)建一個(gè)顯式或隱式的分類(lèi)模型,將網(wǎng)絡(luò)流量模式劃分成若干類(lèi),它的突出特點(diǎn)是需要標(biāo)注數(shù)據(jù)進(jìn)行行為模型的訓(xùn)練,這個(gè)過(guò)程對(duì)資源的需求較高。這類(lèi)方法通常使用包括k-近鄰、決策樹(shù)、支持向量機(jī)器等機(jī)器學(xué)習(xí)分類(lèi)算法。該方法的優(yōu)點(diǎn)是能夠使用新數(shù)據(jù)靈活更新擴(kuò)展檢測(cè)系統(tǒng),缺點(diǎn)主要是訓(xùn)練所需的成本較高,且對(duì)新攻擊模型無(wú)檢測(cè)能力。典型的方法包括有ADAM[4]、DGSOT[5]、DNIDS[6]等。

3)基于聚類(lèi)和離群點(diǎn)的方法。聚類(lèi)是指將對(duì)象劃分成組(稱(chēng)為簇)的過(guò)程,目標(biāo)是使得位于同一個(gè)簇內(nèi)的對(duì)象相似度高,而位于不同簇內(nèi)的對(duì)象相似度低。常用的聚類(lèi)算法包括K-Means、DBSCAN等?;谡>W(wǎng)絡(luò)訪問(wèn)行為量遠(yuǎn)大于異常行為量的假設(shè),這些離群點(diǎn)和一些包含數(shù)據(jù)點(diǎn)較少的簇被認(rèn)為是異常。聚類(lèi)算法的優(yōu)點(diǎn)是不需要標(biāo)注數(shù)據(jù),計(jì)算開(kāi)銷(xiāo),且性能表現(xiàn)穩(wěn)定,缺點(diǎn)是動(dòng)態(tài)更新的復(fù)雜度較高,距離量度方式對(duì)結(jié)果影響大,且大多僅適用于連續(xù)性數(shù)值屬性(如實(shí)數(shù)型)。這類(lèi)方法的典型代表有MINDS[7]、ADMIT[8]、PAIDS[9]等。

4)基于軟計(jì)算的方法?;蜻z傳算法、人工神經(jīng)網(wǎng)絡(luò)、模糊邏輯、蟻群算法、人工免疫算法等都在此類(lèi)方法之列,這些方法的不確定性和不精確性與網(wǎng)絡(luò)異常檢測(cè)問(wèn)題的特征恰好符合,能夠良好應(yīng)對(duì)數(shù)據(jù)樣本中存在的不一致性問(wèn)題,而缺點(diǎn)在于大多數(shù)方法存在可擴(kuò)展性問(wèn)題。這類(lèi)方法的典型代表包括GBID[10]、RT-UNNID[11]、FIRE[12]等。

5)基于知識(shí)的方法。每起網(wǎng)絡(luò)事件都會(huì)與一系列預(yù)先定義的規(guī)則或攻擊模式進(jìn)行匹配檢查,目標(biāo)是能夠?qū)⒁阎羰褂靡环N泛化式的表達(dá)來(lái)覆蓋,這類(lèi)方法包括有專(zhuān)家系統(tǒng)方法、基于本體的方法、基于邏輯的方法、基于規(guī)則的方法和狀態(tài)轉(zhuǎn)移分析方法等。這些方法的優(yōu)點(diǎn)是檢測(cè)率高、健壯性高、靈活性高,主要缺點(diǎn)是需花費(fèi)大量時(shí)間才能產(chǎn)生有價(jià)值的知識(shí)經(jīng)驗(yàn),對(duì)于有偏差的數(shù)據(jù)可能會(huì)產(chǎn)生大量誤報(bào),動(dòng)態(tài)更新知識(shí)庫(kù)難度大等。典型的代表方法包括Snort[13]、KBTA[14]等。

6)基于組合學(xué)習(xí)的方法。組合學(xué)習(xí)是指綜合使用多種技術(shù)的方法總稱(chēng),主要包含集成方法、融合方法和混合方法3個(gè)子類(lèi)別。集成方法的基本思想是構(gòu)建若干個(gè)獨(dú)立的分類(lèi)器,再對(duì)它們各自的結(jié)果進(jìn)行加權(quán)組合得出最終的結(jié)論。組合的方法主要有3種,即裝袋 、提升和疊加 。融合方法主要針對(duì)于多數(shù)據(jù)源的場(chǎng)景,可以對(duì)來(lái)自不同源的數(shù)據(jù)進(jìn)行綜合處理、分析與決策。典型代表方法包括有McPAD[15]、HMMPayl[16]、RT-MOVICAB-IDS[17]等。

1.2 基于HTTP流量的異常檢測(cè)方法

基于HTTP流量的異常檢測(cè)方法主要是基于對(duì)提取出的HTTP數(shù)據(jù)包的分析,可以分為兩大類(lèi):一類(lèi)是基于知識(shí)的方法,也就是將已知的攻擊使用某種方式進(jìn)行有效表達(dá),檢測(cè)過(guò)程即為知識(shí)庫(kù)匹
[18];另一類(lèi)是基于分類(lèi)或軟計(jì)算的方法,主要是使用一些機(jī)器學(xué)習(xí)算法或軟計(jì)算方法對(duì)提取出的HTTP數(shù)據(jù)包特征進(jìn)行分類(lèi)檢測(cè)模型的訓(xùn)練構(gòu)建[19]。對(duì)HTTP流量提取這些特征后,基于標(biāo)注數(shù)據(jù)集使用決策樹(shù)、支持向量機(jī)、人工神經(jīng)網(wǎng)絡(luò)、模糊邏輯等算法進(jìn)行檢測(cè)分類(lèi)模型的離線訓(xùn)練構(gòu)建,即可用于在線的異常檢測(cè)。

1.3 基于NetFlow流量的異常檢測(cè)方法

基于NetFlow流量的異常檢測(cè)中最簡(jiǎn)單同時(shí)也最常用的方法就是基于閾值的方法,只要統(tǒng)計(jì)的結(jié)果超過(guò)預(yù)先設(shè)定的閾值,則認(rèn)為是異常流量。閾值的設(shè)定直接影響檢測(cè)的效果,不適當(dāng)?shù)脑O(shè)置可能會(huì)造成大量漏報(bào)或誤報(bào)。為了減少錯(cuò)誤,通常輔助以基于特征比對(duì)的方法和基于連接狀態(tài)的方法。

1)基于特征比對(duì)的方法通過(guò)觀察每一種異常行為并歸納其攻擊特征,從而指導(dǎo)設(shè)定相應(yīng)的閾值。如當(dāng)某個(gè)IP地址符合特征的數(shù)量超過(guò)預(yù)設(shè)的閾值時(shí),即判定為異常。

2)基于連接狀態(tài)的方法是指對(duì)網(wǎng)絡(luò)整體的連接狀態(tài)進(jìn)行分析,其出發(fā)點(diǎn)是蠕蟲(chóng)、病毒和DDoS 攻擊等都會(huì)在短時(shí)間內(nèi)產(chǎn)生出大量的連接以實(shí)現(xiàn)傳播感染,而在新主機(jī)遭受感染后又會(huì)重復(fù)同樣的傳播行為再次產(chǎn)生大量連接,因此可以利用這個(gè)整體連接特征進(jìn)行分析,找出網(wǎng)絡(luò)中存在的異常流量。

1.4 自適應(yīng)的異常檢測(cè)方法

自適應(yīng)可以分為兩大類(lèi),分別是指閾值自適應(yīng)和模型自適應(yīng)。前者是指根據(jù)實(shí)際的網(wǎng)絡(luò)環(huán)境動(dòng)態(tài)調(diào)整異常判定的閾值,而后者是指檢測(cè)模型可以根據(jù)新出現(xiàn)的攻擊行為進(jìn)行自適應(yīng)學(xué)習(xí)和更新。

1)閾值自適應(yīng)方法的主要出發(fā)點(diǎn)是網(wǎng)絡(luò)流量動(dòng)態(tài)多變,一個(gè)網(wǎng)絡(luò)不同時(shí)段的流量是不同的,但是各個(gè)時(shí)段又呈現(xiàn)出一定的周期性。閾值自適應(yīng)方法的典型代表是基于時(shí)間序列的方法[20],包括有自回歸和移動(dòng)平均模型ARIMA、Hot-Winters線性平滑模型、卡爾曼濾波平滑模型等。

2)模型自適應(yīng)方法的主要特點(diǎn)是檢測(cè)模型可以根據(jù)網(wǎng)絡(luò)流量數(shù)據(jù)進(jìn)行自學(xué)習(xí)和更新,從而能夠適應(yīng)動(dòng)態(tài)變化的網(wǎng)絡(luò)環(huán)境,提高對(duì)新攻擊的檢測(cè)能力[21],因此,所有基于學(xué)習(xí)的方法均可劃分到這個(gè)類(lèi)別中。

 2 網(wǎng)絡(luò)行為大數(shù)據(jù)異常行為建模

2.1 建模流程

網(wǎng)絡(luò)行為大數(shù)據(jù)異常行為建模檢測(cè)分若干個(gè)階段連續(xù)運(yùn)行,分析在固定長(zhǎng)度的連續(xù)時(shí)間窗口內(nèi)抓取的網(wǎng)絡(luò)流量。

2.1.1 數(shù)據(jù)收集

1)首先是使用部署在網(wǎng)絡(luò)中的設(shè)備對(duì)網(wǎng)絡(luò)流量進(jìn)行抓取,并根據(jù)HTTP流量、NetFlow記錄等數(shù)據(jù)格式的不同需求進(jìn)行數(shù)據(jù)包的解析或匯總。為了適應(yīng)大數(shù)據(jù)處理的需要,抓取的網(wǎng)絡(luò)流量數(shù)據(jù)將直接輸出到分布式處理平臺(tái)(如Apache Hadoop)以便后續(xù)的高效計(jì)算處理。同時(shí)網(wǎng)絡(luò)流量數(shù)據(jù)是一種數(shù)據(jù)流,可以借助如Apache Kafka等工具對(duì)其進(jìn)行組織,形成從數(shù)據(jù)源(流量采集設(shè)備)到分布式處理平臺(tái)的數(shù)據(jù)管道。

2)抓取到原始流量數(shù)據(jù)后,將按連續(xù)的固定長(zhǎng)度時(shí)間窗口對(duì)數(shù)據(jù)進(jìn)行多分辨率流聚合。以NetFlow數(shù)據(jù)為例,Flow將在不同級(jí)別進(jìn)一步聚合,從粗粒度到細(xì)粒度可以包含的級(jí)別有:時(shí)間窗口內(nèi)的所有流量、同源端網(wǎng)絡(luò)前綴、同目的端網(wǎng)絡(luò)前綴、同源端IP地址、同目的端IP地址等。對(duì)聚合后的數(shù)據(jù)采用基于時(shí)間序列分析的技術(shù),即變化檢測(cè)(change detection)算法來(lái)判斷某個(gè)時(shí)間窗口是否存在異常。

2.1.2 特征提取

在上一步驟中被判定為存在異常的時(shí)間窗口包含的所有流量數(shù)據(jù)將作為后續(xù)步驟的輸入,按照源端IP地址和目的端IP地址2種聚合鍵對(duì)流量數(shù)據(jù)進(jìn)行聚合及特征提取,且這2個(gè)聚合鍵的選取對(duì)應(yīng)著兩大類(lèi)的網(wǎng)絡(luò)異常:“1-to-N”異常和“N-to-1”異常。

對(duì)于每種聚合的網(wǎng)絡(luò)流量數(shù)據(jù),定義并計(jì)算提取的特征分別為:對(duì)于HTTP流量,可以是HTTP請(qǐng)求/響應(yīng)數(shù)、請(qǐng)求參數(shù)個(gè)數(shù)/長(zhǎng)度、請(qǐng)求參數(shù)字符分布熵等;對(duì)于NetFlow,可以是源/目的IP地址數(shù)、數(shù)據(jù)包數(shù)、數(shù)據(jù)包總字節(jié)數(shù)、數(shù)據(jù)包長(zhǎng)度分布熵等。為適應(yīng)大數(shù)據(jù)場(chǎng)景,采用分布式計(jì)算引擎(如MapReduce或Spark)來(lái)完成這些特征的計(jì)算提取。

2.1.3 網(wǎng)絡(luò)行為建模

提取特征后,即可應(yīng)用聚類(lèi)算法處理以形成網(wǎng)絡(luò)流量的分簇并計(jì)算相應(yīng)的異常度值,從而完成對(duì)正常網(wǎng)絡(luò)行為和異常網(wǎng)絡(luò)行為的建模。本文將采用子空間聚類(lèi)算法來(lái)產(chǎn)生不同的數(shù)據(jù)劃分,再在子空間上應(yīng)用基于密度的聚類(lèi)算法,在離群點(diǎn)的排序中采用證據(jù)積累聚類(lèi)技術(shù)。

2.1.4 異常檢測(cè)

在得到各個(gè)離群點(diǎn)的不相似性度量及排序之后,異常檢測(cè)將通過(guò)基于閾值的方法完成,閾值的確定可以采用如下方法。

1)選用固定不相似性度量值,即通過(guò)經(jīng)驗(yàn)設(shè)置某個(gè)預(yù)定的不相似度量值作為閾

大云網(wǎng)官方微信售電那點(diǎn)事兒

責(zé)任編輯:售電衡衡

免責(zé)聲明:本文僅代表作者個(gè)人觀點(diǎn),與本站無(wú)關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實(shí),對(duì)本文以及其中全部或者部分內(nèi)容、文字的真實(shí)性、完整性、及時(shí)性本站不作任何保證或承諾,請(qǐng)讀者僅作參考,并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。
我要收藏
個(gè)贊
?