中國電力科學研究院劉鳳魁等.基于改進快速密度峰值聚類算法的電力大數(shù)據(jù)異常值檢測
劉鳳魁, 鄧春宇, 王曉蓉, 等. 基于改進快速密度峰值聚類算法的電力大數(shù)據(jù)異常值檢測[J]. ,2017,15(6): 36-41.
LIU Feng-kui, DENG Chun-yu,WANG Xiao-rong, et al. Outlier Detection of Smart Grid Big Data Based on Improved Fast Search and Find Density Peaks Clustering Algorithm[J]. Electric Power Information and Communication Technology, 2017,15(6):36-41.
第一作者 劉鳳魁
劉鳳魁(1990-),女,河北石家莊人,工學碩士,研究方向為電力大數(shù)據(jù)分析。作者所在的中國電科院大數(shù)據(jù)研究團隊成立于2014年初,采用跨專業(yè)聯(lián)合攻關模式,以電力大數(shù)據(jù)應用為核心、面向價值實現(xiàn),從數(shù)據(jù)獲取與管理、大數(shù)據(jù)處理技術、分析挖掘算法、電力業(yè)務大數(shù)據(jù)應用四個方面重點突破,打造核心競爭力。
研究背景
由于數(shù)據(jù)來源不同、統(tǒng)計口徑不同、一線人員數(shù)據(jù)錄入、異常行為等問題以及缺乏相應的數(shù)據(jù)質量管控體系,常常會導致異常數(shù)據(jù)產(chǎn)生。異常數(shù)據(jù)包含了系統(tǒng)異常情況出現(xiàn)的相關信息,因此異常數(shù)據(jù)背后潛藏著巨大的研究價值,可為實際應用提供幫助。在電力行業(yè),異常值檢測可用于電網(wǎng)故障檢測、設備故障檢測、用電異常檢測等領域。
快速密峰值聚類算法
快速密度峰值聚類算法是2014年 Rodriguez 等人發(fā)表在Sciences上的一篇論文中所提出的較新穎的聚類算法。該算法主要基于兩個設想:一是聚類中心被具有較低密度的鄰居包圍;二是聚類中心與其他具有較高密度的任何點的距離都相對較大。對于每個樣本點,需要計算兩個參數(shù):
局部密度:
距離:
以局部密度為橫坐標,距離為縱坐標,繪制決策圖,同時具有較大局部密度和距離的點會被識別為聚類中心,然后將聚類中心的類標依次傳遞給距離最近的點完成聚類過程。
基于KNN的快速密峰值異常值檢測算法
本文針對快速密度峰值聚類算法沒有考慮數(shù)據(jù)集局部特征且算法精度依賴于截斷距離dc的不足,提出一種基于KNN 的快速密度峰值異常值檢測算法。該算法的核心是用KNN 思想計算樣本的局部密度:
KNN距離:
基于KNN 的局部密度和距離在計算時既考慮了數(shù)據(jù)集的全局特征,也考慮了數(shù)據(jù)集的局部特點。計算出樣本的之后,確定數(shù)據(jù)集中的異常值,數(shù)據(jù)集中局部密度較小、距離較大的點有可能是異常值,因為其周圍的鄰居較少且與其他樣本的距離較大。本文認為異常樣本滿足如下條件:
局部密度,且距離
時,則該樣本點可以判定為異常值。其中,局部密度閾值
的定義為:
距離閾值 的定義為:
實驗案例
案例所用數(shù)據(jù)為某省某臺交流10 kV 配電變壓器2014年1月1日至2014年4月30日共120天的日負荷數(shù)據(jù),其采集頻率為1 h,因此日負荷曲線為24個數(shù)據(jù)點。日負荷數(shù)據(jù)標準化后的曲線如圖1所示,可以看出該變壓器的常規(guī)運行模式,而有些曲線較大程度地偏離了正常運行模式。
利用文中所提算法,對該數(shù)據(jù)集進行異常值檢測,其異常值決策圖如圖2所示。
檢測出的異常值如圖3所示。
對比圖1與圖3可以看出,本文所提算法已將圖1中的少數(shù)不同于正常運行模式的曲線檢測出來。在總共120條曲線中共篩出7條異常曲線。這7條曲線的時間分布見表1所列。2014年1月31日為中國農(nóng)歷新年,異常值所在的時間恰為春節(jié)假期,這也說明了所提算法能夠有效檢測出異常的用電模式。
解決的問題和意義
1)從異常值檢測角度改進快速密度峰值聚類算法。利用KNN的思想重新定義局部密度和距離,改善了原始算法沒有考慮數(shù)據(jù)局部特點以及依賴于截斷距離的不足,并定義了判斷異常值的規(guī)則,從異常值檢測角度對其進行優(yōu)化。
2)異常值檢測有重要應用價值。異常值檢測一方面可以作為數(shù)據(jù)預處理的一部分,解決因數(shù)據(jù)采集,或人工錄入等原因導致的數(shù)據(jù)異常問題;另一方面可以進行異常用電行為分析,支撐竊電嫌疑、風險預警等應用。

- 相關閱讀
- 碳交易
- 節(jié)能環(huán)保
- 電力法律
- 電力金融
- 綠色電力證書
-
碳中和戰(zhàn)略|趙英民副部長致辭全文
2020-10-19碳中和,碳排放,趙英民 -
兩部門:推廣不停電作業(yè)技術 減少停電時間和停電次數(shù)
2020-09-28獲得電力,供電可靠性,供電企業(yè) -
國家發(fā)改委、國家能源局:推廣不停電作業(yè)技術 減少停電時間和停電次數(shù)
2020-09-28獲得電力,供電可靠性,供電企業(yè)
-
碳中和戰(zhàn)略|趙英民副部長致辭全文
2020-10-19碳中和,碳排放,趙英民 -
深度報告 | 基于分類監(jiān)管與當量協(xié)同的碳市場框架設計方案
2020-07-21碳市場,碳排放,碳交易 -
碳市場讓重慶能源轉型與經(jīng)濟發(fā)展并進
2020-07-21碳市場,碳排放,重慶
-
兩部門:推廣不停電作業(yè)技術 減少停電時間和停電次數(shù)
2020-09-28獲得電力,供電可靠性,供電企業(yè) -
國家發(fā)改委、國家能源局:推廣不停電作業(yè)技術 減少停電時間和停電次數(shù)
2020-09-28獲得電力,供電可靠性,供電企業(yè) -
2020年二季度福建省統(tǒng)調燃煤電廠節(jié)能減排信息披露
2020-07-21火電環(huán)保,燃煤電廠,超低排放
-
四川“專線供電”身陷違法困境
2019-12-16專線供電 -
我國能源替代規(guī)范法律問題研究(上)
2019-10-31能源替代規(guī)范法律 -
區(qū)域鏈結構對于數(shù)據(jù)中心有什么影響?這個影響是好是壞呢!