本發明涉及數字人,具體而言,涉及一種原生通話過程中的數字人交互方法和系統。
背景技術:
1、隨著人工智能和計算機圖形學的發展,數字人及智能體交互技術在多個領域得到廣泛應用,如在線客服、虛擬助手、身份認證等。當前的技術架構主要依賴于客戶端模式,包括網頁端(h5)和移動端(app)兩種交互方式。
2、在網頁端交互方案中,數字人通?;趙ebrtc或websocket協議實現實時通信,并依賴?html5?canvas?或webgl進行3d模型的渲染。該方案需要云端api提供計算支持,典型應用如電商或客服網頁中的虛擬導購功能。然而,由于瀏覽器性能限制,復雜數字人的渲染和交互可能面臨延遲和兼容性問題。
3、在移動端交互方案中,數字人通常通過unity或unreal?engine等sdk集成,模型資源需預先下載并在本地緩存,以提高渲染效率和交互流暢度。此類方案常見于金融類?app的數字人身份核驗場景,但受限于終端硬件性能,可能導致資源占用過高或適配性問題。
4、此外,現有數字人交互方案的通信鏈路主要基于互聯網應用層協議(如?sip、rtmp),僅適用于ip網絡環境,無法直接與傳統通信網絡的電路域(cs)或分組域(ps)進行對接,限制了其在電信級業務(如語音通話、短信交互)中的擴展應用。
5、因此,亟需一種低延遲的、能夠基于傳統通信網絡實現的數字人交互方法。
技術實現思路
1、本發明解決的問題是如何提供一種低延遲的、能夠基于傳統通信網絡實現的數字人交互方法。
2、為解決上述問題,本發明提供一種原生通話過程中的數字人交互方法和系統。
3、第一方面,本發明提供了一種原生通話過程中的數字人交互方法,包括:
4、在用戶終端發起通話呼叫事件時,核心網基于所述通話呼叫事件對應的呼叫內容生成并輸出數字人服務請求至數字人引擎;所述數字人服務請求至少包括數字人服務標識信息,所述數字人服務標識信息用于標識所述呼叫內容對應的數字人服務類型;
5、所述數字人引擎響應于所述數字人服務請求,根據所述數字人服務標識信息加載預先定制的數字人模型并將加載的所述數字人模型發送至邊緣渲染節點;
6、所述邊緣渲染節點用于基于所述數字人模型生成并輸出數字人視頻流和語音流至核心網,所述數字人視頻流和語音流在時間上同步;
7、所述核心網響應于接收到的數字人視頻流和語音流,與所述用戶終端建立通話,同時將所述數字人視頻流和語音流轉發至用戶終端,以在所述用戶終端中顯示能夠進行實時交互的虛擬數字人形象。
8、可選地,所述在用戶終端發起呼叫事件時,所述核心網基于所述呼叫事件對應的呼叫內容生成并輸出數字人服務請求至數字人引擎,包括:
9、在所述用戶終端發起通話呼叫事件時,所述用戶終端與所述核心網之間建立sip信令通道,所述核心網通過所述sip信令通道接收所述用戶終端發起的通話呼叫事件對應的呼叫內容;
10、在所述核心網基于所述通話呼叫事件對應的呼叫內容識別到需要數字人服務時,確定所述呼叫內容對應的數字人引擎,建立websocket信令通道,所述數字人引擎通過所述websocket信令通道接收所述數字人服務請求。
11、可選地,所述呼叫內容至少包括被叫號碼;在所述核心網基于所述通話呼叫事件對應的呼叫內容識別到需要數字人服務時,確定所述呼叫內容對應的數字人引擎,包括:
12、所述核心網基于所述通話呼叫事件對應的被叫號碼,確定所述被叫號碼對應的預設數字人服務類型,并根據所述被叫號碼對應的預設數字人服務類型確定對應的數字人引擎;其中,所述被叫號碼與所述預設數字人服務類型具有對應的映射關系。
13、可選地,所述預設數字人服務類型至少包括:銀行客服數字人、電商導購數字人和個人電話助手數字人。
14、可選地,所述邊緣渲染節點用于基于所述數字人模型生成并輸出數字人視頻流和語音流至核心網,包括:
15、所述邊緣渲染節點將所述數字人視頻流基于rtp協議進行封裝,將所述語音流基于rtcp協議進行封裝,并將封裝后的所述數字人視頻流和所述語音流通過媒體通道傳輸至所述核心網。
16、可選地,所述邊緣渲染節點部署在所述核心網的預定區域內。
17、可選地,所述將所述數字人視頻流和語音流轉發至用戶終端之后,還包括:
18、在通話中,所述核心網接收用戶終端發送的語音指令,將所述語音指令轉換為語音數據后輸出至所述數字人引擎;
19、所述數字人引擎將所述語音數據轉換為文本數據,并基于文本數據進行意圖分析,確定所述語音數據對應的響應動作指令,將所述響應動作指令輸出至所述邊緣渲染節點;
20、所述邊緣渲染節點基于所述響應動作指令生成并輸出對應的數字人視頻流和語音流至所述核心網;
21、所述核心網將所述響應動作指令對應的數字人視頻流和語音流轉發至用戶終端,以更新所述用戶終端中顯示的虛擬數字人形象。
22、第二方面,本發明提供了一種原生通話過程中的數字人交互系統,包括:
23、核心網,用于在用戶終端發起通話呼叫事件時,基于所述通話呼叫事件對應的呼叫內容生成并輸出數字人服務請求;
24、數字人引擎,響應于所述數字人服務請求,加載并輸出預先定制的數字人模型;
25、邊緣渲染節點,用于基于所述數字人模型生成并輸出數字人視頻流和語音流,所述數字人視頻流和語音流在時間上同步;
26、所述核心網,響應于接收到的數字人視頻流和語音流,與所述用戶終端建立通話,同時將所述數字人視頻流和語音流轉發至用戶終端,以在所述用戶終端中顯示能夠進行實時交互的虛擬數字人形象。
27、可選地,所述在用戶終端發起通話呼叫事件時,所述核心網基于所述呼叫事件對應的呼叫內容生成并輸出數字人服務請求至數字人引擎,包括:
28、在所述用戶終端發起通話呼叫事件時,在所述用戶終端與所述核心網之間建立sip信令通道,所述核心網通過所述sip信令通道接收所述用戶終端發起的通話呼叫事件對應的呼叫內容;
29、在所述核心網基于所述通話呼叫事件對應的呼叫內容識別到需要數字人服務時,確定所述呼叫內容對應的數字人引擎,建立websocket信令通道,所述數字人引擎通過所述websocket信令通道接收所述數字人服務請求。
30、可選地,所述呼叫內容至少包括被叫號碼;所述在所述核心網基于所述通話呼叫事件對應的呼叫內容識別到需要數字人服務時,確定所述呼叫內容對應的數字人引擎,包括:
31、所述核心網基于所述通話呼叫事件對應的被叫號碼,確定所述被叫號碼對應的預設數字人服務類型,并根據所述被叫號碼對應的預設數字人服務類型確定對應的數字人引擎;其中,所述被叫號碼與所述預設數字人服務類型具有對應的映射關系。
32、本發明的原生通話過程中的數字人交互方法和系統的有益效果是:在用戶終端發起通話呼叫事件時,核心網基于通話呼叫事件對應的呼叫內容生成并輸出數字人服務請求至數字人引擎,用戶終端發起的原生通話呼叫可以直接通過核心網觸發數字人服務請求至數字人引擎,無需借助互聯網網絡,可直接通過傳統通信網絡實現數字人服務請求的觸發。數字人引擎響應于數字人服務請求,加載預先定制的數字人模型并將加載的數字人模型發送至邊緣渲染節點,數字人引擎可根據數字人服務請求加載對應的數字人模型為后續數字人交互提供模型基礎。邊緣渲染節點用于基于數字人模型生成并輸出數字人視頻流和語音流至核心網,數字人視頻流和語音流在時間上同步,通過邊緣渲染節點動態加載與渲染優化,實現毫秒級數字人啟動與交互,顯著提升用戶體驗。核心網響應于接收到的數字人視頻流和語音流,與用戶終端建立通話,同時將數字人視頻流和語音流轉發至用戶終端,以在用戶終端中顯示能夠進行實時交互的虛擬數字人形象,實現了低延遲的、能夠基于傳統通信網絡實現的數字人交互方法,通過核心網智能調度音視頻流,確保用戶終端實時呈現高保真、可交互的數字人形象,提升沉浸式體驗。