本申請涉及機器學習,具體而言,涉及一種基于機器學習算法的音色轉換方法及系統。
背景技術:
1、在音頻處理領域,音色轉換是一項具有重要意義的技術。不同的音色能夠傳達不同的情感、信息和風格。例如,在語音合成中,用戶可能希望將一種平淡的語音音色轉換為富有情感、富有磁性或者更加柔和的音色;在音樂制作中,也經常需要將一種樂器的音色轉換為另一種樂器的音色以獲得獨特的音樂效果。傳統的音色轉換方法往往存在諸多局限性,例如轉換后的音色不夠自然、對原始音頻的語音內容保留不佳或者在處理復雜音色屬性時效果不理想等。
技術實現思路
1、有鑒于此,本申請的目的在于提供一種基于機器學習算法的音色轉換方法及系統。
2、依據本申請的第一方面,提供一種基于機器學習算法的音色轉換方法,所述方法包括:
3、獲取源音頻信號和目標音色描述,所述源音頻信號包含待轉換的原始音色特征,所述目標音色描述用于定義期望輸出的音色屬性;
4、將所述源音頻信號分解為多個音頻幀,并對每個所述音頻幀執行時頻變換處理,提取所述源音頻信號的頻譜特征;
5、將所述目標音色描述轉換為多維音色特征向量,所述多維音色特征向量包含與所述音色屬性對應的量化參數;
6、將所述頻譜特征與所述多維音色特征向量輸入音色融合網絡進行特征融合,生成包含目標音色屬性的轉換后頻譜特征;
7、對所述轉換后頻譜特征執行逆時頻變換處理,生成目標音頻信號,所述目標音頻信號的音色屬性與所述目標音色描述中的期望音色屬性一致。
8、在第一方面的一種可能的實施方式中,所述將所述源音頻信號分解為多個音頻幀,并對每個所述音頻幀執行時頻變換處理,提取所述源音頻信號的頻譜特征,包括:
9、對所述源音頻信號進行分幀處理,得到多個固定時長的音頻幀,每個所述音頻幀通過加窗函數處理以減少頻譜泄漏;
10、對每個加窗后的音頻幀執行傅里葉變換,得到對應的幅度譜和相位譜;
11、從所述幅度譜中提取梅爾頻率倒譜系數作為所述頻譜特征,并將所述相位譜作為重構參數保留。
12、在第一方面的一種可能的實施方式中,所述目標音色描述包括參考音頻片段或用戶輸入的文本描述;
13、當所述目標音色描述為參考音頻片段時,對所述參考音頻片段進行基頻提取和共振峰分析,生成所述多維音色特征向量;
14、當所述目標音色描述為文本描述時,調用預訓練的音色屬性解析模型,將所述文本描述映射為所述多維音色特征向量中的量化參數。
15、在第一方面的一種可能的實施方式中,述音色融合網絡包括編碼器和解碼器,所述編碼器由多個卷積層組成,用于將所述頻譜特征壓縮為潛在空間特征;
16、所述解碼器由多個反卷積層組成,用于將所述潛在空間特征與所述多維音色特征向量進行通道拼接后重構為所述轉換后頻譜特征;
17、其中,所述編碼器和所述解碼器通過跳躍連接傳遞低頻信息以保留所述源音頻信號的語音內容。
18、在第一方面的一種可能的實施方式中,所述音色融合網絡的訓練過程包括:
19、采集多組不同音色的訓練音頻數據,并為每組訓練音頻數據標注對應的音色屬性標簽;
20、將訓練音頻的頻譜特征輸入所述編碼器得到潛在特征,并將標注的所述音色屬性標簽轉換為條件向量;
21、將所述潛在特征與所述條件向量輸入所述解碼器,生成重構頻譜特征;
22、計算所述重構頻譜特征與目標頻譜特征之間的均方誤差損失,并聯合優化所述編碼器和所述解碼器的網絡參數。
23、在第一方面的一種可能的實施方式中,所述方法還包括對所述轉換后頻譜特征進行動態范圍調整的步驟:
24、根據所述源音頻信號的基頻軌跡和能量分布,調整所述轉換后頻譜特征的諧波成分和噪聲成分的比例;
25、將調整后的頻譜特征與保留的所述相位譜結合,生成滿足時域連續性的中間信號;
26、對所述中間信號進行線性預測分析,修正頻譜包絡以匹配所述目標音色描述中的共振峰帶寬參數。
27、在第一方面的一種可能的實施方式中,所述動態范圍調整通過可微分信號處理模塊實現,所述可微分信號處理模塊包括:
28、諧波增強單元,用于根據所述多維音色特征向量中的明亮度參數增強高頻諧波能量;
29、噪聲抑制單元,用于根據所述多維音色特征向量中的平滑度參數降低非周期性噪聲的幅度;
30、所述諧波增強單元和所述噪聲抑制單元的輸出通過加權求和方式融合,權重由所述音色屬性中的情感類別參數動態控制。
31、在第一方面的一種可能的實施方式中,所述方法還包括對所述目標音頻信號進行后處理的步驟:
32、提取所述源音頻信號的原始節奏特征和語調輪廓,并將所述原始節奏特征與所述目標音頻信號的頻譜進行時間對齊;
33、根據所述語調輪廓調整所述目標音頻信號的基頻曲線,使其保持與所述源音頻信號相同的語速和重音模式;
34、將調整后的基頻曲線輸入聲碼器生成最終的目標音頻信號。
35、在第一方面的一種可能的實施方式中,當所述用戶輸入的文本描述包含多個沖突音色屬性時,執行以下處理:
36、通過注意力機制計算每個音色屬性的權重系數,所述權重系數基于所述源音頻信號的原始音色特征與目標音色屬性之間的兼容性確定;
37、將加權的音色屬性參數合并為統一的多維音色特征向量,并生成對應的沖突解決日志供用戶確認。
38、依據本申請的第二方面,提供一種基于機器學習算法的音色轉換系統,所述基于機器學習算法的音色轉換系統包括機器可讀存儲介質及處理器,所述機器可讀存儲介質存儲有機器可執行指令,所述處理器在執行所述機器可執行指令時,該基于機器學習算法的音色轉換系統實現前述的基于機器學習算法的音色轉換方法。
39、依據本申請的第三方面,提供一種計算機可讀存儲介質,所述計算機可讀存儲介質中存儲有計算機可執行指令,在所述計算機可執行指令被執行時,實現前述的基于機器學習算法的音色轉換方法。
40、依據上述任意一個方面,本申請的技術效果在于:
41、首先獲取源音頻信號和目標音色描述,將源音頻信號分解為多個音頻幀并提取頻譜特征,把目標音色描述轉換為多維音色特征向量,然后通過音色融合網絡進行特征融合得到轉換后頻譜特征,再經過逆時頻變換生成目標音頻信號。此外,還涉及對轉換后頻譜特征的動態范圍調整以及對目標音頻信號的后處理等步驟,以提高音色轉換的質量和效果,解決多種復雜情況下的音色轉換問題。
1.一種基于機器學習算法的音色轉換方法,其特征在于,所述方法包括:
2.根據權利要求1所述的基于機器學習算法的音色轉換方法,其特征在于,所述將所述源音頻信號分解為多個音頻幀,并對每個所述音頻幀執行時頻變換處理,提取所述源音頻信號的頻譜特征,包括:
3.根據權利要求1所述的基于機器學習算法的音色轉換方法,其特征在于,所述目標音色描述包括參考音頻片段或用戶輸入的文本描述;
4.根據權利要求1所述的基于機器學習算法的音色轉換方法,其特征在于,所述音色融合網絡包括編碼器和解碼器,所述編碼器由多個卷積層組成,用于將所述頻譜特征壓縮為潛在空間特征;
5.根據權利要求4所述的基于機器學習算法的音色轉換方法,其特征在于,所述音色融合網絡的訓練過程包括:
6.根據權利要求1所述的基于機器學習算法的音色轉換方法,其特征在于,所述方法還包括對所述轉換后頻譜特征進行動態范圍調整的步驟:
7.根據權利要求6所述的基于機器學習算法的音色轉換方法,其特征在于,所述動態范圍調整通過可微分信號處理模塊實現,所述可微分信號處理模塊包括:
8.根據權利要求1所述的基于機器學習算法的音色轉換方法,其特征在于,所述方法還包括對所述目標音頻信號進行后處理的步驟:
9.根據權利要求3所述的基于機器學習算法的音色轉換方法,其特征在于,當所述用戶輸入的文本描述包含多個沖突音色屬性時,執行以下處理:
10.一種基于機器學習算法的音色轉換系統,其特征在于,包括處理器以及計算機可讀存儲介質,所述計算機可讀存儲介質存儲有機器可執行指令,所述機器可執行指令被處理器執行時實現權利要求1-9中任意一項所述的基于機器學習算法的音色轉換方法。