本發(fā)明涉及音視頻處理,尤其涉及一種音頻水印模型的訓(xùn)練、音頻水印嵌入方法及其裝置。
背景技術(shù):
1、數(shù)字音頻作為廣泛傳播的信息載體,其版權(quán)保護以及真實性驗證變得愈發(fā)重要。數(shù)字水印技術(shù)通過將特定的隱蔽信息嵌入到音頻中,能夠有效標(biāo)示版權(quán)歸屬并防范非法篡改。然而,由于人類聽覺系統(tǒng)具有高度的敏感性,音頻水印技術(shù)在保證高提取準(zhǔn)確率和抗攻擊魯棒性的同時,面臨著極其嚴(yán)苛的音頻質(zhì)量要求,必須確保嵌入水印后的音頻對用戶而言是完全透明且無感知的。
2、為了滿足上述高質(zhì)量的音頻水印嵌入需求,現(xiàn)有的基于深度學(xué)習(xí)的音頻水印處理方案,通常先對原始音頻信號進行時頻變換,分離出幅度譜與相位譜特征;隨后,將水印編碼與幅度譜進行特征拼接并輸入神經(jīng)網(wǎng)絡(luò)計算調(diào)制特征,最后結(jié)合原始相位譜重構(gòu)生成含水印的音頻。在整個網(wǎng)絡(luò)模型的訓(xùn)練階段,為了盡可能維持音頻質(zhì)量,現(xiàn)有技術(shù)普遍采用計算原始音頻與其對應(yīng)的含水印音頻在頻域特征上的均方誤差(mean?squared?error,mse)或絕對誤差作為損失函數(shù)。其核心邏輯是通過在模型訓(xùn)練過程中不斷最小化上述誤差,強制約束生成信號與原始信號之間的物理數(shù)值差異,進而指導(dǎo)網(wǎng)絡(luò)參數(shù)的迭代更新。
3、然而,現(xiàn)有技術(shù)在音頻質(zhì)量的優(yōu)化上存在顯著的局限性。這種單純基于頻域數(shù)值逼近的約束方式,本質(zhì)上僅衡量了音頻信號在數(shù)學(xué)統(tǒng)計維度的絕對差異,單純依賴降低數(shù)學(xué)統(tǒng)計誤差的優(yōu)化方向與真實的聽覺體驗嚴(yán)重脫節(jié),造成生成的含水印音頻在主觀感知上難以實現(xiàn)真正的高保真度。
技術(shù)實現(xiàn)思路
1、本發(fā)明提供一種音頻水印模型的訓(xùn)練、音頻水印嵌入方法及其裝置,用以解決現(xiàn)有技術(shù)中單純基于頻域數(shù)值逼近的損失函數(shù)無法表征人耳聽覺系統(tǒng)的非線性感知特性,導(dǎo)致模型優(yōu)化方向與真實主觀聽感嚴(yán)重脫節(jié)的缺陷,實現(xiàn)直接以聽覺感知質(zhì)量驅(qū)動模型網(wǎng)絡(luò)參數(shù)更新,克服傳統(tǒng)數(shù)值誤差優(yōu)化的局限,從而顯著提升含水印音頻在主觀聽感上的自然度、保真度與隱蔽性的技術(shù)效果。
2、本發(fā)明提供一種音頻水印模型的訓(xùn)練方法,包括:
3、獲取一初始音頻樣本與一水印編碼樣本融合得到的水印音頻樣本;
4、將由所述水印音頻樣本和所述初始音頻樣本組成的感知音頻對輸入至聽覺感知評估模型,獲取所述聽覺感知評估模型輸出的聽覺感知質(zhì)量值;其中,所述聽覺感知評估模型是基于客觀聽感評價指標(biāo)對應(yīng)的真實標(biāo)簽訓(xùn)練得到的;
5、基于所述聽覺感知質(zhì)量值確定感知損失函數(shù),結(jié)合所述感知損失函數(shù)對所述音頻水印模型的模型參數(shù)進行更新。
6、根據(jù)本發(fā)明提供的一種音頻水印模型的訓(xùn)練方法,所述結(jié)合所述感知損失函數(shù)對所述音頻水印模型的模型參數(shù)進行更新,包括:
7、計算所述水印音頻樣本的幅度譜特征與所述初始音頻樣本的幅度譜特征之間的頻域重構(gòu)損失;
8、將所述水印音頻樣本輸入至水印提取模型,獲取所述水印提取模型輸出的重建水印編碼;
9、計算所述重建水印編碼與所述水印編碼樣本之間的水印解碼損失;
10、將所述感知損失函數(shù)、所述頻域重構(gòu)損失以及所述水印解碼損失進行融合計算,得到全局損失函數(shù);
11、利用所述全局損失函數(shù)對所述音頻水印模型的模型參數(shù)進行聯(lián)合更新。
12、根據(jù)本發(fā)明提供的一種音頻水印模型的訓(xùn)練方法,所述將所述水印音頻樣本輸入至水印提取模型,獲取所述水印提取模型輸出的重建水印編碼,包括:
13、將所述水印音頻樣本輸入至所述水印提取模型中的仿真攻擊模擬層;
14、在當(dāng)前訓(xùn)練批次中,從預(yù)設(shè)的攻擊方式集合中隨機選擇一種目標(biāo)攻擊方式對所述水印音頻樣本進行干擾處理,得到受攻擊音頻樣本;
15、將所述受攻擊音頻樣本輸入至所述水印提取模型中的特征提取層,輸出所述重建水印編碼。
16、根據(jù)本發(fā)明提供的一種音頻水印模型的訓(xùn)練方法,所述基于所述聽覺感知質(zhì)量值確定感知損失函數(shù),包括:
17、從所述聽覺感知質(zhì)量值中,獲取所述感知音頻對在不同聽覺評價維度下的當(dāng)前質(zhì)量評價分值,所述聽覺評價維度至少包括語音質(zhì)量感知維度和客觀可懂度維度;
18、獲取所述感知音頻對在每個所述聽覺評價維度對應(yīng)的目標(biāo)質(zhì)量標(biāo)簽;
19、分別計算各個所述當(dāng)前質(zhì)量評價分值與對應(yīng)的所述目標(biāo)質(zhì)量標(biāo)簽之間的質(zhì)量偏差程度;
20、對各個所述聽覺評價維度下的質(zhì)量偏差程度進行融合計算,得到所述感知損失函數(shù)。
21、根據(jù)本發(fā)明提供的一種音頻水印模型的訓(xùn)練方法,所述聽覺感知評估模型是通過以下迭代執(zhí)行以下預(yù)訓(xùn)練步驟,直至滿足預(yù)設(shè)收斂條件后得到的:
22、獲取評估訓(xùn)練樣本對,所述評估訓(xùn)練樣本對是由任一初始訓(xùn)練音頻樣本以及對所述初始訓(xùn)練音頻樣本添加水印后得到的水印音頻樣本組成的;
23、將所述評估訓(xùn)練樣本對輸入至待訓(xùn)練的聽覺感知評估模型,獲取由所述待訓(xùn)練的聽覺感知評估模型輸出的對于所述客觀聽感評價指標(biāo)的預(yù)測值;
24、計算所述客觀聽感評價指標(biāo)的預(yù)測值與所述真實標(biāo)簽之間的預(yù)測差異損失;
25、基于所述預(yù)測差異損失對所述待訓(xùn)練的聽覺感知評估模型的模型參數(shù)進行更新。
26、根據(jù)本發(fā)明提供的一種音頻水印模型的訓(xùn)練方法,所述真實標(biāo)簽是基于以下步驟確定的:
27、分別計算所述評估訓(xùn)練樣本對的語音質(zhì)量感知評估值和短時客觀可懂度值;
28、對所述語音質(zhì)量感知評估值進行數(shù)值變換處理,將其數(shù)值范圍映射至與所述短時客觀可懂度值相同的目標(biāo)區(qū)間內(nèi),得到映射評估值;
29、將所述映射評估值和所述短時客觀可懂度值共同確定為所述真實標(biāo)簽。
30、根據(jù)本發(fā)明提供的一種音頻水印模型的訓(xùn)練方法,獲取所述評估訓(xùn)練樣本對的步驟,包括:
31、在所述音頻水印模型的訓(xùn)練輪次達(dá)到預(yù)設(shè)輪次的情況下,獲取初步訓(xùn)練后的音頻水印模型;
32、利用所述初步訓(xùn)練后的音頻水印模型,對訓(xùn)練數(shù)據(jù)集合中的初始訓(xùn)練音頻樣本進行處理,得到對應(yīng)于所述初始訓(xùn)練音頻樣本的水印音頻樣本;
33、將所述初始訓(xùn)練音頻樣本和對應(yīng)的所述水印音頻樣本進行組合,得到用于訓(xùn)練所述聽覺感知評估模型的所述評估訓(xùn)練樣本對。
34、根據(jù)本發(fā)明提供的一種音頻水印模型的訓(xùn)練方法,所述獲取一初始音頻樣本與一水印編碼樣本融合得到的水印音頻樣本,包括:
35、獲取所述初始音頻樣本的幅度譜特征和相位譜特征;
36、確定所述幅度譜特征的時間維度尺寸和頻率維度尺寸;
37、將所述水印編碼樣本沿著所述時間維度尺寸進行擴展處理,得到擴展水印特征,所述擴展水印特征的時間維度尺寸與所述幅度譜特征的時間維度尺寸相匹配;
38、將所述擴展水印特征與所述幅度譜特征沿著所述頻率維度尺寸所在的方向進行拼接,得到融合特征;
39、將所述融合特征輸入至音頻水印模型,獲取由所述音頻水印模型輸出的調(diào)制特征;
40、基于所述調(diào)制特征和所述相位譜特征,重構(gòu)得到所述水印音頻樣本。
41、根據(jù)本發(fā)明提供的一種音頻水印模型的訓(xùn)練方法,所述基于所述調(diào)制特征和所述相位譜特征,重構(gòu)得到所述水印音頻樣本,包括:
42、將所述調(diào)制特征確定為目標(biāo)幅度譜特征;
43、利用逆短時傅里葉變換,對所述目標(biāo)幅度譜特征和所述相位譜特征進行頻域至?xí)r域的轉(zhuǎn)換處理,得到所述水印音頻樣本。
44、本發(fā)明還提供一種音頻水印嵌入方法,包括:
45、基于上述任一項音頻水印模型的訓(xùn)練方法,訓(xùn)練得到音頻水印模型;
46、獲取待處理音頻的幅度譜特征和相位譜特征,以及待嵌入的目標(biāo)水印編碼;
47、將所述目標(biāo)水印編碼與所述幅度譜特征進行特征融合,得到目標(biāo)融合特征;
48、將所述目標(biāo)融合特征輸入至所述音頻水印模型,獲取由所述音頻水印模型輸出的目標(biāo)調(diào)制特征;
49、基于所述目標(biāo)調(diào)制特征和所述相位譜特征,重構(gòu)得到嵌入所述目標(biāo)水印編碼的目標(biāo)水印音頻。
50、本發(fā)明還提供一種音頻水印模型的訓(xùn)練裝置,包括:
51、音頻重構(gòu)模塊,用于獲取一初始音頻樣本與一水印編碼樣本融合得到的水印音頻樣本;
52、感知評估模塊,用于將由所述水印音頻樣本和所述初始音頻樣本組成的感知音頻對輸入至聽覺感知評估模型,獲取所述聽覺感知評估模型輸出的聽覺感知質(zhì)量值;其中,所述聽覺感知評估模型是基于客觀聽感評價指標(biāo)對應(yīng)的真實標(biāo)簽訓(xùn)練得到的;
53、模型更新模塊,用于基于所述聽覺感知質(zhì)量值確定感知損失函數(shù),結(jié)合所述感知損失函數(shù)對所述音頻水印模型的模型參數(shù)進行更新。
54、本發(fā)明還提供一種音頻水印嵌入裝置,包括:
55、模型訓(xùn)練模塊,用于基于上述任一項音頻水印模型的訓(xùn)練方法,訓(xùn)練得到音頻水印模型;
56、信息獲取模塊,用于獲取待處理音頻的幅度譜特征和相位譜特征,以及待嵌入的目標(biāo)水印編碼;
57、特征融合模塊,用于將所述目標(biāo)水印編碼與所述幅度譜特征進行特征融合,得到目標(biāo)融合特征;
58、調(diào)制處理模塊,用于將所述目標(biāo)融合特征輸入至所述音頻水印模型,獲取由所述音頻水印模型輸出的目標(biāo)調(diào)制特征;
59、音頻重構(gòu)模塊,用于基于所述目標(biāo)調(diào)制特征和所述相位譜特征,重構(gòu)得到嵌入所述目標(biāo)水印編碼的目標(biāo)水印音頻。
60、本發(fā)明還提供一種電子設(shè)備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,所述處理器執(zhí)行所述程序時實現(xiàn)如上述任一種所述音頻水印模型的訓(xùn)練、音頻水印嵌入方法。
61、本發(fā)明還提供一種非暫態(tài)計算機可讀存儲介質(zhì),其上存儲有計算機程序,該計算機程序被處理器執(zhí)行時實現(xiàn)如上述任一種所述音頻水印模型的訓(xùn)練、音頻水印嵌入方法。
62、本發(fā)明提供的音頻水印模型的訓(xùn)練、音頻水印嵌入方法及其裝置,通過可微代理模型構(gòu)建感知損失,直接以聽感分?jǐn)?shù)為優(yōu)化目標(biāo),克服了傳統(tǒng)均方誤差無法表征人耳非線性特性的缺陷,顯著提升了水印音頻的自然度、保真度與隱蔽性,同時大幅增強了模型抵御各類復(fù)雜信道失真攻擊的魯棒性,保障了水印提取準(zhǔn)確率。