本發明涉及智能路由算法,更具體地,涉及一種面向時變網絡的意圖感知路由生成方法及裝置。
背景技術:
1、時變網絡具有網絡拓撲結構動態可變、節點鏈路異質異構、網絡流量突發等特性,因此,根據網絡鏈路狀態的意圖進行感知、生成路由并實現數據的及時、有效、可靠傳輸是十分重要的。傳統的路由算法通常根據有限的鏈路狀態信息,進行最短路徑的選擇從而實現業務傳輸,這會導致對于復雜場景下的網絡拓撲變化難以快速響應,因此無法滿足業務服務質量的需求。為了滿足時變網絡的需求,現有的智能化路由算法在近幾年得到了飛速的發展,其中,基于強化學習的智能路由算法受到研究人員的廣泛關注。不同于其他深度學習算法,強化學習可以在不需要先驗環境知識的情況下保持自學習的優勢,同時能夠解決高維狀態空間的優化問題,因此,以強化學習為基礎的智能路由算法成為主流趨勢。
2、然而,現有以強化學習為基礎的智能路由算法存在實際場景自適應差、收斂速度慢等問題,且大多數算法只考慮帶寬、傳輸速率等因素的影響而忽略了地形環境、節點運動預測等情況對路由生成的影響,導致不能自適應地根據末端網絡狀態進行路由生成。
技術實現思路
1、有鑒于此,本發明提供了一種面向時變網絡的意圖感知路由生成方法及裝置,旨在解決現有智能路由算法存在實際場景自適應性差、收斂速度慢的技術問題。
2、本發明的一個方面提供了一種面向時變網絡的意圖感知路由生成方法,包括:獲取業務請求信息,并對業務請求信息進行解析,得到業務狀態服務質量需求參數,其中,業務狀態服務質量需求參數表征本次業務請求的意圖;根據意圖,從時變網絡的源節點出發,搜索出能夠到達目標節點的可行路徑矩陣;基于可行路徑矩陣,計算得到可行路徑矩陣中每條鏈路的鏈路狀態矩陣;根據鏈路狀態矩陣和可行路徑矩陣對應的地形特征,生成網絡狀態空間特征;將網絡狀態空間特征輸入預先訓練的強化學習模型,決策出能夠滿足業務狀態服務質量需求參數的路徑作為目標路由。
3、根據本發明的實施例,根據意圖,從時變網絡的源節點出發,搜索出能夠到達目標節點的可行路徑矩陣包括:獲取時變網絡中的路由節點集合,以及路由節點之間的鏈路集合;根據所述路由節點集合和所述鏈路集合,生成時變網絡末端節點的網絡拓撲;根據所述網絡拓撲,利用所述意圖生成源節點到達目標節點的可行路徑矩陣。
4、根據本發明的實施例,基于可行路徑矩陣,計算得到可行路徑矩陣中每條鏈路的鏈路狀態矩陣包括:計算可行路徑矩陣中每條鏈路的時延參數;計算可行路徑矩陣中每條鏈路的剩余寬帶參數;計算可行路徑矩陣中每條鏈路的丟包率;計算可行路徑矩陣中每條鏈路的地形影響率;根據時延參數、剩余寬帶參數、丟包率和地形影響率,生成可行路徑矩陣中每條鏈路的鏈路狀態矩陣。
5、根據本發明的實施例,計算可行路徑矩陣中每條鏈路的地形影響率包括:根據每條鏈路中兩個節點之間的移動距離通過蒙特卡洛方法計算得到每條鏈路受地形影響的概率。
6、根據本發明的實施例,根據每條鏈路中兩個節點之間的移動距離通過蒙特卡洛方法計算得到每條鏈路受地形的影響概率包括:響應于經過隨機采樣,確定每條鏈路中兩個節點的坐標;響應于經過重復采樣n次,其中有n次的鏈路與障礙物相交,則鏈路受地形的影響概率f?(ei,j)為:
7、
8、其中,ei,j表示節點vi和vj之間的鏈路。
9、根據本發明的實施例,根據時延參數、剩余寬帶參數、丟包率和地形影響率,生成可行路徑矩陣中每條鏈路的鏈路狀態矩陣包括:
10、
11、其中,mp表示鏈路狀態矩陣,d表示時延參數、b表示剩余帶寬參數、l表示丟包率、f表示地形影響率。
12、根據本發明的實施例,將網絡狀態空間特征輸入預先訓練的強化學習模型,決策出能夠滿足業務狀態服務質量需求參數的路徑作為目標路由包括:根據路徑決策策略,確定出可行路徑矩陣中預期價值最大的路徑,其中,路徑決策策略被配置為貪心策略;根據可行路徑矩陣中預期價值最大的路徑,生成目標路由。
13、本發明的另一個方面提供了一種面向時變網絡的意圖感知路由生成裝置,包括:獲取模塊,用于獲取業務請求信息,并對業務請求信息進行解析,得到業務狀態服務質量需求參數,其中,業務狀態服務質量需求參數表征本次業務請求的意圖;搜索模塊,用于根據意圖,從時變網絡的源節點出發,搜索出能夠到達目標節點的可行路徑矩陣;計算模塊,用于基于可行路徑矩陣,計算得到可行路徑矩陣中每條鏈路的鏈路狀態矩陣;生成模塊,用于根據鏈路狀態矩陣和可行路徑矩陣對應的地形特征,生成網絡狀態空間特征;決策模塊,用于將網絡狀態空間特征輸入預先訓練的強化學習模型,決策出能夠滿足業務狀態服務質量需求參數的路徑作為目標路由。
14、本發明的另一個方面提供了一種電子設備,包括:一個或多個處理器;存儲器,用于存儲一個或多個程序,其中,當一個或多個程序被一個或多個處理器執行時,使得一個或多個處理器實現如上的方法。
15、本發明的另一方面提供了一種計算機可讀存儲介質,存儲有計算機可執行指令,指令在被執行時用于實現如上的方法。
16、本發明的另一方面提供了一種計算機程序產品,計算機程序產品包括計算機可執行指令,指令在被執行時用于實現如上的方法。
17、與現有技術相比,本發明實施例提供的面向時變網絡的意圖感知路由生成方法及裝置,至少具有以下有益效果:
18、(1)本發明實施例提供的面向時變網絡的意圖感知路由生成方法及裝置,利用了基于業務狀態服務質量需求與網絡鏈路資源、地理環境信息的動態路由選擇機制,增強了路由生成方法對于復雜環境的自適應性,因此解決了現有智能路由算法存在實際場景自適應性差的技術問題。
19、(2)本發明實施例提供的面向時變網絡的意圖感知路由生成方法及裝置,通過蒙特卡洛方法隨機取樣計算鏈路受地形的影響概率,并將該數據作為時變網絡狀態空間特征之一,同時考慮通信服務質量、地理環境和網絡終端節點變換對路由生成的影響,提高了智能路由生成算法的自適應性。
20、(3)本發明實施例提供的面向時變網絡的意圖感知路由生成方法及裝置,使用了強化學習模型而非其他深度模型,這是因為時變網絡的末端網絡節點自由度較大,難以獲得可用于訓練的大量樣本集,導致通過監督學習等對樣本敏感的智能路由算法不適用復雜通信網絡環境,而強化學習的無監督學習機制非常適合于時變網絡的場景。
21、(4)本發明實施例提供的面向時變網絡的意圖感知路由生成方法及裝置,使用dueling?dqn強化學習模型(改進后的deep?q-network模型),而非常用的single?dqn(傳統的deep?q-network模型),這是因為dueling?dqn強化學習模型算法收斂速度更快,更適用于時變網絡頻繁發生的情況。
1.一種面向時變網絡的意圖感知路由生成方法,其特征在于,所述方法包括:
2.根據權利要求1所述的方法,其特征在于,所述根據所述意圖,從時變網絡的源節點出發,搜索出能夠到達目標節點的可行路徑矩陣包括:
3.根據權利要求1所述的方法,其特征在于,所述基于所述可行路徑矩陣,計算得到所述可行路徑矩陣中每條鏈路的鏈路狀態矩陣包括:
4.根據權利要求3所述的方法,其特征在于,所述計算所述可行路徑矩陣中每條鏈路的地形影響率包括:
5.根據權利要求4所述的方法,其特征在于,所述根據每條鏈路中兩個節點之間的移動距離通過蒙特卡洛方法計算得到每條鏈路受地形的影響概率包括:
6.根據權利要求4所述的方法,其特征在于,所述根據所述時延參數、所述剩余寬帶參數、所述丟包率和所述地形影響率,生成所述可行路徑矩陣中每條鏈路的鏈路狀態矩陣包括:
7.根據權利要求1所述的方法,其特征在于,所述將所述網絡狀態空間特征輸入預先訓練的強化學習模型,決策出能夠滿足所述業務狀態服務質量需求參數的路徑作為目標路由包括:
8.一種面向時變網絡的意圖感知路由生成裝置,其特征在于,所述裝置包括:
9.一種電子設備,其特征在于,包括:
10.一種計算機可讀存儲介質,其上存儲有可執行指令,其特征在于,該指令被處理器執行時使處理器執行根據權利要求1~7中任一項所述的方法。