本技術涉及到網絡安全技術,具體涉及一種基于去噪表示學習的混淆流量分類方法。
背景技術:
1、網絡流量分類因其在流量優化、主機行為分析和網絡安全監控等多個網絡領域應用中的重要性,受到了學術界和工業界的廣泛關注。為了增強流量數據隱私保護和提升網絡安全性,各種流量混淆技術已經被應用于實際的網絡應用和服務中。經過不同混淆技術處理的流量稱為混淆流量,即流量的固有特征可以通過多種混淆操作(如加密、偽裝和隨機化等)來掩蓋,這給流量識別和分類帶來了巨大挑戰。由于這一難點,流量混淆技術被廣泛應用于tor(洋蔥路由)等匿名網絡中,使混淆流量能夠規避網絡監控、行為分析和審查。此外,這些技術也可能被用于掩蓋網絡犯罪分子的非法活動。因此,對混淆流量進行分類顯得尤為重要。
2、到目前為止,對混淆流量分類的研究可以系統地歸納為三類:深度包檢測(dpi)、基于特征工程的方法和基于深度學習的方法。深度包檢測(dpi)依賴于網絡包的內容和頭部信息,采用特征匹配或序列匹配的方式來識別和分類網絡流量。盡管這類方法在識別混淆流量方面取得了一定的成效,但它需要大量的人工分析和特征提取。此外,基于特征工程的流量分類方法,如支持向量機(svm)、決策樹和卷積神經網絡(cnn),在分類過程中也依賴于人工提取的特征。為了解決這一局限性,研究人員開發了多種基于深度學習的分類方法,包括序列指定、字節指定和圖指定的方法。這些深度學習模型能夠自動從輸入的網絡包或流中提取特征,從而有效減少了人工特征提取可能帶來的錯誤。
3、傳統的流量混淆技術允許每個用戶或應用程序根據需求選擇混淆方式。然而,它也會在混淆后的流量中引入新的特征,這些特征的差異取決于具體的混淆機制,即混淆方法是否一致。由于現有方法利用這些新生成的特征來執行流量分類任務,因此能夠實現較高的分類準確率。
4、為了增加隱私保護的力度,現有的一些新的流量混淆架構已被提出并被廣泛采用。該架構配備了經典的編碼器和解碼器組件。編碼器旨在利用統一的混淆策略為不同的流量生成相似的特征,而解碼器旨在恢復混淆流量的原始形式以確保正常的網絡功能。如圖1所示,編碼器-解碼器組件的組合不僅保留了常規流量功能,而且還禁用了混淆流量的識別。對于這種新架構生成的混淆流量,最新方法的分類準確率下降了約20%-60%。目前,新架構為混淆流量分類帶來了三個變化:i)特征混淆。混淆策略在不同的應用程序和服務中產生統一且相同的流量模式,這種對不同特征的混淆使得混淆流量難以區分;ii)分類復雜性。流量分類的目標變得更加復雜,而不是之前簡單的混淆流量和非混淆流量之間的二元分類。當今的分類任務是識別具有混淆狀態的特定服務或應用程序;iii)添加噪音。新的混淆策略需要引入字節序列,也就是說,將噪音添加到流量中,這將修改原始流量的語義內容并影響分類方法;iv)不考慮時間特征。加入干擾包會改變流量數據的時間特征,目前的方法并非針對這一點而設計的,導致對此類數據包進行分類的性能一般。
5、目前現有的混淆流量分類研究,已有的混淆流量分類技術對新架構生成的混淆流量分類準確率下降了約20%-60%,分類效果差,產生該情況的原因是由于混淆策略使不同網絡應用和服務的流量模式同質化,消除了每種流量固有的獨特特征;在流量混淆過程中引入的字節序列會修改原始語義,從而給分類任務帶來大量噪音。以上兩個原因導致當前的分類方法效果差。
6、綜上,上述新的流量混淆架構不僅導致了混淆流量分類準確率下降及數據包進行分類的性能不高的問題。亟需引入一種注意力機制,并提出了一個高效的混淆流量分類模型,能夠有效地減少在流量混淆過程中添加的字節序列所引入的噪聲影響。
技術實現思路
1、為解決上述現有技術中的新型混淆框架帶來的流量分類挑戰,提出了一種基于去噪表示學習的混淆流量分類方法。
2、第一方面,本技術實施例提供了一種基于去噪表示學習的混淆流量分類方法,方法包括:
3、數據包嵌入轉換步驟:將待分類的混淆流量輸入預訓練的數據包嵌入轉換模型,在流量的每個數據包的標頭和有效負載中,生成標頭嵌入和有效負載嵌入;
4、混淆去除步驟:基于標頭嵌入和有效負載嵌入,通過去噪表示學習,去除有效負載內的混淆噪聲,其中,混淆噪聲包括:由填充引入的噪聲及由干擾包引入的噪聲;
5、數據包特征融合步驟:針對標頭嵌入及混淆去除的有效負載嵌入,采用跨門融合機制,合并數據包的標頭和負載嵌入,將標頭嵌入和過濾后的負載嵌入進行拼接,得到最終的組合嵌入,實現混淆流量的分類。
6、本技術實施例,上述數據包嵌入轉換步驟包括:
7、使用基于bert的預訓練模型分別進行每個數據包的頭部和負載的嵌入轉換,生成對應的頭部和有效負載嵌入表示。
8、本技術實施例,上述混淆去除步驟包括:
9、特征提取注意力步驟:通過特征提取注意力機制,提取有效負載內有助于分類的信息;
10、去混淆注意力步驟:通過去混淆注意力機制,消除有效負載內的混淆噪聲。
11、本技術實施例,上述數據包特征融合步驟包括:
12、對每個數據包的頭部和負載的嵌入采用線性變換操作,采用交叉門控特征融合,合并數據包的頭部和負載嵌入,生成融合后的去噪表示。
13、本技術實施例,上述特征提取注意力步驟包括:
14、初始化特征偏好矩陣,使用可學習的偏好矩陣及負載嵌入為輸入,計算注意力分數,并進行注意力分數歸一化,計算獲得令牌偏差矩陣;
15、將令牌偏差矩陣與負載嵌入相乘,計算得到特征偏差嵌入矩陣。
16、本技術實施例,上述去混淆注意力步驟包括:
17、引入一個額外的多頭注意力機制,使用總結了所有類別與嵌入之間的關系的新矩陣,表示負載嵌入;
18、將新特征偏好矩陣中的填充類別偏差向量替換為零向量;
19、使用修改后的注意力機制計算去混淆嵌入,混淆嵌入包含去除填充干擾后的類別特征。
20、本技術實施例,上述數據包特征融合步驟包括:
21、分別對頭部嵌入和去混淆后的負載嵌入應用線性變換操作后,通過prelu激活函數進行非線性變換;
22、通過sigmoid層生成門控向量,門控向量用于對原始嵌入向量進行加權;
23、使用頭部門控向量過濾負載嵌入,使用負載門控向量過濾頭部嵌入。
24、第二方面,本技術實施例提供了一種基于去噪表示學習的混淆流量分類系統,采用如上述基于去噪表示學習的混淆流量分類方法,系統包括:
25、數據包嵌入轉換模塊:輸入待分類的混淆流量,基于預訓練的數據包嵌入轉換模型,在流量的每個數據包的標頭和有效負載中,生成標頭嵌入和有效負載嵌入;
26、混淆去除模塊:基于標頭嵌入和有效負載嵌入,通過去噪表示學習,去除有效負載內的混淆噪聲,其中,混淆噪聲包括:由填充引入的噪聲及由干擾包引入的噪聲;
27、數據包特征融合模塊:針對標頭嵌入及混淆去除的有效負載嵌入,采用跨門融合機制,合并數據包的標頭和負載嵌入,將過濾后的標頭和負載嵌入進行拼接,得到最終的組合嵌入,實現混淆流量的分類。
28、第三方面,本技術實施例提供了一種計算機可讀存儲介質,其上存儲有計算機程序,該程序被處理器執行時實現所述的基于去噪表示學習的混淆流量分類方法的步驟。
29、第四方面,本技術實施例提供了一種電子設備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,所述處理器執行所述程序時實現如所述的基于去噪表示學習的混淆流量分類方法的步驟。
30、相比于相關現有技術,具有以下突出的有益效果:
31、1)本發明方法針對網絡數據包流量的嵌入轉換;利用基于bert的預訓練模型獨立處理每個數據包的標頭和有效負載,并相應地生成標頭嵌入eheader和有效負載嵌入epayload。這些嵌入隨后用于去混淆和特征融合的過程,最終作為混淆流量分類的基礎;
32、2)本發明方法針對網絡數據包流量嵌入的混淆去除;去混淆模塊通過定義偏置矩陣來學習潛在的不同特征,分別考慮了干擾數據包和混淆填充引入的兩種噪聲。針對epayload中的干擾數據包和混淆填充引起的噪聲問題,設計了一個去混淆注意組件來以更準確的方式增強流量語義表示;
33、3)本發明方法針對網絡數據包數據包頭和有效負載嵌入的跨門特征融合,考慮了epayload和eheader之間的相關性,采用交叉門特征融合模塊來精確定位這種關系。在跨門特征融合后,有效載荷嵌入epayload和標頭嵌入eheader被連接成一個單一表示,以充分促進下游分類任務。