本發(fā)明涉及智能交通,具體涉及混合交通環(huán)境下的交叉口強化學習控制方法、設備及介質(zhì)。
背景技術(shù):
1、汽車數(shù)量的快速增長導致城市路網(wǎng)建設滯后,交通擁堵問題日益嚴重,交通擁堵帶來的經(jīng)濟損失占城市居民可支配收入的20%,已成為制約城市發(fā)展的關(guān)鍵問題之一。道路交叉口作為城市交通的核心樞紐和交通瓶頸區(qū)域,車輛在此轉(zhuǎn)向時交通需求高于相連道路,不同方向的車輛可能發(fā)生沖突,降低通行能力,進一步加劇擁堵。因此,優(yōu)化交叉口交通管理、提高通行能力,對緩解交通擁堵至關(guān)重要。
2、目前,交叉口主要采用固定周期的交通信號燈控制,但車流量動態(tài)變化,可能導致實際流量與預期不符。為解決這一問題,智能交通信號燈控制策略應運而生,通過實時交通流信息動態(tài)調(diào)節(jié)信號燈狀態(tài),提高通行效率。
3、此外,純聯(lián)網(wǎng)自動駕駛汽車(cav)環(huán)境下,無信號交叉口控制策略借助車聯(lián)網(wǎng)(v2x)技術(shù)實現(xiàn)車輛協(xié)調(diào),顯著提升交通效率。近年來,自動駕駛技術(shù)發(fā)展迅速,如百度“蘿卜快跑”在多地開展測試,全國也建立了多個智能網(wǎng)聯(lián)測試示范區(qū)和試點城市,為無信號交叉口控制策略的實現(xiàn)提供了支撐。
4、然而,未來很長一段時間內(nèi),人為駕駛車輛(hv)和cav將共存于混合交通環(huán)境中。無信號交叉口控制策略雖能提升效率,但因缺乏信號燈引導,hv行為難以預測,安全性難以保障。
5、因此,大多數(shù)研究仍依賴信號燈管理cav與hv。常規(guī)方法是讓cav與hv共享車道,通過調(diào)節(jié)cav軌跡和信號燈狀態(tài)提升效率,但這種方法無法充分發(fā)揮cav潛力,也難以克服hv的不確定性風險。基于cav專用車道的控制策略通過物理隔離cav與hv,減少交互沖突,使cav更高效運行,優(yōu)化交叉口通行效率。
6、現(xiàn)有cav專用車道的研究多集中在靜態(tài)車道分配,但在不同交通流量和cav滲透率下,可能會導致車道資源浪費或擁堵加劇。部分學者已展開動態(tài)專用車道控制的研究。例如,有研究提出左轉(zhuǎn)和直行的cav在各自階段使用獨立專用車道,但這種分離式設計需要更多車道基礎(chǔ)設施,且當來車比例不均衡時,某些車道利用率不足,造成資源浪費。另一些研究則提出左轉(zhuǎn)和直行共享cav專用車道的動態(tài)分配方式,但這種方式在交通流量波動較大時,車道功能切換頻繁,可能降低整體通行效率。
7、另外,隨著人工智能的發(fā)展,機器學習開始應用于智能交通系統(tǒng),深度強化學習(drl)作為最接近人類大腦的學習系統(tǒng),可以高效解決復雜的決策問題。但其在混合交通環(huán)境中的應用仍較少,多數(shù)研究依賴基于優(yōu)化的算法。這些傳統(tǒng)方法在理論上具有優(yōu)勢,但需要大量計算資源求解全局最優(yōu)解,可能導致計算延遲,無法及時響應交通狀況變化,在實際應用中,隨著交通流量增加和環(huán)境復雜性提升,難以保障實時性。
技術(shù)實現(xiàn)思路
1、基于上述背景技術(shù)所提出的問題,本發(fā)明的目的在于提供混合交通環(huán)境下的交叉口強化學習控制方法、設備及介質(zhì),通過引入cav專用相位和自由車道方向的cav專用車道,降低cav與hv之間的沖突,根據(jù)當前的cav滲透率動態(tài)調(diào)整cav專用車道的模式,然后根據(jù)當前車流的情況動態(tài)調(diào)整信號燈的狀態(tài),并依據(jù)混合交通環(huán)境下的交叉口和深度強化學習框架之間的交互更新訓練生成控制方法,從而解決混合交通環(huán)境下的交叉口協(xié)調(diào)問題。
2、本發(fā)明通過下述技術(shù)方案實現(xiàn):
3、本發(fā)明第一方面提供了混合交通環(huán)境下的交叉口強化學習控制方法,包括如下步驟:
4、將混合交通環(huán)境下的交叉口設置為環(huán)境;其中,所述環(huán)境包括車道,將所述車道劃分為普通車道和cav專用車道;
5、構(gòu)建第一智能體、第二智能體和第三智能體;
6、所述第一智能體通過感知所述環(huán)境的狀態(tài),并執(zhí)行ε-貪婪策略選擇cav專用車道模式;
7、所述第二智能體通過感知受所述cav專用車道模式影響下所述環(huán)境的狀態(tài),并執(zhí)行ε-貪婪策略選擇相位;
8、所述第三智能體通過感知在所述相位下所述環(huán)境的狀態(tài),并執(zhí)行ε-貪婪策略分配所述cav專用車道上車輛的通行權(quán)。
9、在上述技術(shù)方案中,將混合交通環(huán)境下的交叉口設置為環(huán)境,在面向cav與hv混合交通環(huán)境下,本方法將車道劃分為普通車道和cav專用車道,通過引入cav專用車道來隔離cav和hv的相互影響;cav專用車道設置為自由車道方向,即可右轉(zhuǎn),直行和左轉(zhuǎn);普通車道設置為固定車道模式,即左轉(zhuǎn)hv只能從固定為左轉(zhuǎn)普通車道通過交叉口。在此基礎(chǔ)上,為cav專用車道提供了cav專用相位,在cav專用相位內(nèi),采用本方法自由調(diào)控cav通過交叉口;在其他相位,利用信號燈分離沖突車輛,將沖突的hv車流分配到不同相位,hv則完全沿用傳統(tǒng)方式,根據(jù)信號燈指示通過交叉口。
10、深度強化學習框架包括三個智能體:第一智能體(lane-pattern?agent)、第二智能體(traffic-signal?agent)和第三智能體(cav-coordination?agent),第一智能體、第二智能體和第三智能體按順序與環(huán)境進行動態(tài)耦合。
11、首先,第一智能體用于根據(jù)cav的滲透率調(diào)整cav專用車道模式。其中,第一智能體感知環(huán)境中cav與hv的數(shù)量比例,通過執(zhí)行ε-貪婪策略從而確定動作——選擇cav專用車道模式,并執(zhí)行動作將所選擇的cav專用車道模式應用于環(huán)境中。
12、其次,第二智能體用于依據(jù)cav專用車道模式和實時車流量動態(tài)調(diào)整信號燈相位并確定相位。其中,第二智能體感知將所選擇的cav專用車道模式應用于環(huán)境后環(huán)境的狀態(tài),通過執(zhí)行ε-貪婪策略從而確定動作——選擇相位,并執(zhí)行動作將所選擇的相位應用于環(huán)境中。
13、最后,第三智能體用于在所選擇的相位下為cav專用車道上的車輛分配通行權(quán),其中,第三智能體感知將所選擇的相位應用于環(huán)境后環(huán)境的狀態(tài),通過執(zhí)行ε-貪婪策略從而確定動作——分配cav專用車道上車輛的通行權(quán),基于所分配的車輛通行權(quán)調(diào)控cav通過交叉口,實現(xiàn)對混合交通流的控制。
14、在一種可選的實施例中,所述第一智能體執(zhí)行如下步驟:
15、獲取t時刻環(huán)境中cav車輛數(shù)與hv車輛數(shù),并將所述cav車輛數(shù)與所述hv車輛數(shù)的比例構(gòu)成作為t時刻的狀態(tài)st;
16、將選擇cav車道模式作為動作,通過ε-貪婪策略確定所述狀態(tài)st下t時刻的動作at;
17、執(zhí)行所述動作at,并獲取執(zhí)行所述動作at后的車輛通行數(shù)目,根據(jù)所述車輛通行數(shù)目計算t時刻的獎勵rt。
18、在一種可選的實施例中,在所述第一智能體執(zhí)行完畢后還包括:將所述狀態(tài)st、所述動作at、獎勵rt和所述環(huán)境在t+1時刻的狀態(tài)st+1整合成經(jīng)驗放入經(jīng)驗回放池,利用所述經(jīng)驗回放池的經(jīng)驗對所述第一智能體進行訓練。
19、在一種可選的實施例中,所述第二智能體執(zhí)行如下步驟:
20、獲取t時刻環(huán)境中各信號燈相位對應車道的排隊長度,將各信號燈相位對應車道的排隊長度作為t時刻的狀態(tài)st;
21、將選擇所述cav專用車道模式的相位作為動作,通過ε-貪婪策略確定所述狀態(tài)st下t時刻的動作at;
22、執(zhí)行所述動作at,并獲取執(zhí)行所述動作at后的車輛通行數(shù)目,根據(jù)所述車輛通行數(shù)目計算t時刻的獎勵rt。
23、在一種可選的實施例中,在所述第二智能體執(zhí)行完畢后還包括:將所述狀態(tài)st、所述動作at、獎勵rt和所述環(huán)境在t+1時刻的狀態(tài)st+1整合成經(jīng)驗放入經(jīng)驗回放池,利用所述經(jīng)驗回放池的經(jīng)驗對所述第二智能體進行訓練。
24、在一種可選的實施例中,所述第三智能體執(zhí)行如下步驟:
25、獲取t時刻環(huán)境中交通狀態(tài),將所述交通狀態(tài)作為t時刻的狀態(tài)st;其中,所述交通狀態(tài)采用離散交通狀態(tài)編碼,包括位置矩陣、速度矩陣、路徑矩陣和釋放優(yōu)先級矩陣;
26、將分配所述cav專用車道上車輛的通行權(quán)作為動作,通過ε-貪婪策略確定所述狀態(tài)st下t時刻的動作at;
27、執(zhí)行所述動作at,并獲取執(zhí)行所述動作at后的車輛通行數(shù)據(jù)、排隊長度和放行優(yōu)先級,根據(jù)所述車輛通行數(shù)目、所述排隊長度和所述放行優(yōu)先級計算t時刻的獎勵rt。
28、在一種可選的實施例中,根據(jù)所述車輛通行數(shù)據(jù)、所述排隊長度和所述放行優(yōu)先級計算t時刻的獎勵rt,計算過程如下:
29、
30、上式中,nt為t時刻的車輛通行數(shù)目,m為車臂數(shù)目,n為車道數(shù)目,qt為t時刻的排隊長度,ft為t時刻的放行優(yōu)先級,α1、α2、α3為權(quán)重。
31、在一種可選的實施例中,在所述第三智能體執(zhí)行完畢后還包括:將所述狀態(tài)st、所述動作at、獎勵rt和所述環(huán)境在t+1時刻的狀態(tài)st+1整合成經(jīng)驗放入經(jīng)驗回放池,利用所述經(jīng)驗回放池的經(jīng)驗對所述第三智能體進行訓練。
32、本發(fā)明第二方面提供了一種電子設備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,所述處理器執(zhí)行所述計算機程序時實現(xiàn)混合交通環(huán)境下的交叉口強化學習控制方法。
33、本發(fā)明第三方面提供了一種計算機可讀存儲介質(zhì),其上存儲有計算機程序,該計算機程序被處理器執(zhí)行時實現(xiàn)混合交通環(huán)境下的交叉口強化學習控制方法。
34、本發(fā)明與現(xiàn)有技術(shù)相比,具有如下的優(yōu)點和有益效果:
35、本發(fā)明相引入了cav專用相位和自由車道方向的cav專用車道,通過第一智能體根據(jù)cav滲透率調(diào)整cav專用車道模式,第二智能體根據(jù)cav專用車道模式執(zhí)行相應的信號燈相位方案,并根據(jù)實時車流量動態(tài)調(diào)整信號燈狀態(tài),當信號燈處于cav專用相位時,第三智能體根據(jù)當前cav交通狀態(tài)動態(tài)確定車道的通行權(quán),并基于通行權(quán)放行車輛;通過這種控制方法,能夠在不同cav滲透率下動態(tài)優(yōu)化車道模式和信號燈狀態(tài),同時在cav專用相位下靈活協(xié)調(diào)車輛通行,從而最大化整體交通效率并降低交叉口延誤,與動態(tài)信號燈和傳統(tǒng)固定信號燈相比,減少了車輛的平均延誤時間和平均排隊長度,增加了通行效率。