1. <rt id="e600n"></rt>
      1. <pre id="e600n"><strong id="e600n"><pre id="e600n"></pre></strong></pre>
      2. 岛国免费AV,无码人妻精品一区二区三区夜夜嗨,又大又粗又硬又爽黄毛少妇,精品国产AV二区,91视频最新网址,久操无码,久久无码人妻一区二区三区午夜,国产精品视频中文字幕

        一種語音真偽的識別方法、裝置、電子設備及存儲介質與流程

        文檔序號:37757147發布日期:2024-04-25 10:43閱讀:149來源:國知局

        本公開涉及語音處理,具體而言,涉及一種語音真偽的識別方法、裝置、電子設備及存儲介質。


        背景技術:

        1、目前,人工智能合成內容正在快速興起,體現在語音領域包括語音合成、錄音播放、拼接剪輯生成等諸多應用,相應的,針對合成語音的鑒偽工作也應運而生,語音鑒偽的主要方式是將語音數據輸送到語音鑒偽系統中,通過系統輸出的相似度判決是否為偽造語音。

        2、在現在有的語音鑒偽過程中,廣泛存在的噪聲和混響可能會嚴重降低語音鑒偽系統的性能,鑒偽在實際應用中的表現仍然面臨著低信噪比、高混響和遠場拾音等挑戰,同時在實際應用場景中,聲音鑒偽需要面對復雜多樣的語音來源,常常會遇到泛化場景問題,即訓練和測試數據來源不同,因為語音的采集可能來源于不同的信道,如網絡即時通訊信道、電話/手機信道、錄音筆、聲音取證設備等,不同的信道會影響聲音的頻率響應和頻率分布,使得聲音鑒偽系統的性能急劇下降。


        技術實現思路

        1、本公開實施例至少提供一種語音真偽的識別方法、裝置、電子設備及存儲介質,可以在語音數據層面降低噪聲、混響、遠場拾音的干擾,同時利于提取真偽的全局信息,丟棄信道等殘差信息,提高了泛化場景的語音鑒偽能力。

        2、本公開實施例提供了一種語音真偽的識別方法,所述方法包括:

        3、獲取待識別語音;

        4、將所述待識別語音輸入至預先訓練好的多任務學習模型,過濾所述待識別語音中包含的噪聲信號和混響信號,確定所述待識別語音對應的純凈語音,并將所述純凈語音分類為多個說話人語音;

        5、針對多個所述說話人語音中的每一個,將該所述說話人語音輸入至預設的級聯殘差網絡,確定所述說話人語音對應的語音特征信息;

        6、將所述語音特征信息輸入至由一維卷積網絡和壓縮激勵網絡構成的預設特征聚合網絡,在空間維度和通道維度聚合所述語音特征信息中包括的真偽特征信息,確定所述說話人語音對應的真偽特征向量;

        7、將所述真偽特征向量經過預設損失函數的處理,確定所述說話人語音對應的真偽識別結果。

        8、一種可選的實施方式中,所述將所述待識別語音輸入至預先訓練好的多任務學習模型,過濾所述待識別語音中包含的噪聲信號和混響信號,確定所述待識別語音對應的純凈語音,并將所述純凈語音分類為多個說話人語音,具體包括:

        9、將所述待識別語音輸入至所述多任務學習模型中的編碼器,以使所述編碼器輸出所述待識別語音對應的語音編碼特征;

        10、利用所述多任務學習模型中的多任務學習模型中的第一線性層,將所述語音編碼特征轉換為高維語音編碼特征;

        11、將所述高維語音編碼特征依次經過所述多任務學習模型中的conformer網絡、激活層、第二線性層以及重疊相加的處理后,確定所述高維語音編碼特征對應的重建語音編碼特征;

        12、將所述重建語音編碼特征輸入至所述多任務學習模型中的前饋網絡,確定所述重建語音編碼特征對應的說話人掩碼、噪聲掩碼以及混響掩碼;

        13、根據所述噪聲掩碼以及混響掩碼過濾所述待識別語音中包含的噪聲信號和混響信號,確定所述待識別語音對應的純凈語音;

        14、根據所述說話人掩碼,將所述純凈語音分類為多個說話人語音。

        15、一種可選的實施方式中,在所述將所述待識別語音輸入至預先訓練好的多任務學習模型,過濾所述待識別語音中包含的噪聲信號和混響信號,確定所述待識別語音對應的純凈語音,并將所述純凈語音分類為多個說話人語音之后,所述方法還包括:

        16、針對多個所述說話人語音中的每一個,確定該所述說話人語音對應的語音信號強度;

        17、根據所述語音信號強度調整所述說話人語音對應的語音增益。

        18、一種可選的實施方式中,在所述將所述待識別語音輸入至預先訓練好的多任務學習模型,過濾所述待識別語音中包含的噪聲信號和混響信號,確定所述待識別語音對應的純凈語音,并將所述純凈語音分類為多個說話人語音之后,所述方法還包括:

        19、針對多個所述說話人語音中的每一個,確定該所述說話人語音對應的發音開始點以及發音終止點;

        20、根據預設的時間范圍值,剪切所述發音開始點之前以及所述發音終止點之后,所述預設的時間范圍值之外的靜音區域。

        21、一種可選的實施方式中,所述根據所述噪聲掩碼以及混響掩碼過濾所述待識別語音中包含的噪聲信號和混響信號,確定所述待識別語音對應的純凈語音,具體包括:

        22、將所述噪聲掩碼與所述語音編碼特征相乘后進行一維反卷積處理,確定所述待識別語音中包含的噪聲信號;

        23、將所述混響掩碼與所述語音編碼特征相乘后進行一維反卷積處理,確定所述待識別語音中包含的混響信號;

        24、在所述待識別語音中濾除所述噪聲信號和混響信號,確定所述純凈語音。

        25、一種可選的實施方式中,在所述獲取待識別語音之后,所述方法還包括:

        26、將所述待識別語音輸入至依次級聯的預設噪聲過濾網絡、預設混響過濾網絡以及預設語音分離網絡,過濾所述待識別語音中包含的噪聲信號和混響信號,確定所述待識別語音對應的純凈語音,并將所述純凈語音分類為多個說話人語音。

        27、本公開實施例還提供一種語音真偽的識別裝置,所述裝置包括:

        28、獲取模塊,用于獲取待識別語音;

        29、語音增強模塊,用于將所述待識別語音輸入至預先訓練好的多任務學習模型,過濾所述待識別語音中包含的噪聲信號和混響信號,確定所述待識別語音對應的純凈語音,并將所述純凈語音分類為多個說話人語音;

        30、特征提取模塊,用于針對多個所述說話人語音中的每一個,將該所述說話人語音輸入至預設的級聯殘差網絡,確定所述說話人語音對應的語音特征信息;

        31、特征融合模塊,用于將所述語音特征信息輸入至由一維卷積網絡和壓縮激勵網絡構成的預設特征聚合網絡,在空間維度和通道維度聚合所述語音特征信息中包括的真偽特征信息,確定所述說話人語音對應的真偽特征向量;

        32、識別模塊,用于將所述真偽特征向量經過預設損失函數的處理,確定所述說話人語音對應的真偽識別結果。

        33、一種可選的實施方式中,所述特征提取模塊具體用于:

        34、將所述待識別語音輸入至所述多任務學習模型中的編碼器,以使所述編碼器輸出所述待識別語音對應的語音編碼特征;

        35、利用所述多任務學習模型中的多任務學習模型中的第一線性層,將所述語音編碼特征轉換為高維語音編碼特征;

        36、將所述高維語音編碼特征依次經過所述多任務學習模型中的conformer網絡、激活層、第二線性層以及重疊相加的處理后,確定所述高維語音編碼特征對應的重建語音編碼特征;

        37、將所述重建語音編碼特征輸入至所述多任務學習模型中的前饋網絡,確定所述重建語音編碼特征對應的說話人掩碼、噪聲掩碼以及混響掩碼;

        38、根據所述噪聲掩碼以及混響掩碼過濾所述待識別語音中包含的噪聲信號和混響信號,確定所述待識別語音對應的純凈語音;

        39、根據所述說話人掩碼,將所述純凈語音分類為多個說話人語音。

        40、一種可選的實施方式中,所述裝置還包括幅度優化模塊,所述幅度優化模塊用于:

        41、針對多個所述說話人語音中的每一個,確定該所述說話人語音對應的語音信號強度;

        42、根據所述語音信號強度調整所述說話人語音對應的語音增益。

        43、一種可選的實施方式中,所述裝置還包括靜音優化模塊,所述靜音優化模塊用于:

        44、針對多個所述說話人語音中的每一個,確定該所述說話人語音對應的發音開始點以及發音終止點;

        45、根據預設的時間范圍值,剪切所述發音開始點之前以及所述發音終止點之后,所述預設的時間范圍值之外的靜音區域。

        46、一種可選的實施方式中,所述特征提取模塊還用于:

        47、將所述噪聲掩碼與所述語音編碼特征相乘后進行一維反卷積處理,確定所述待識別語音中包含的噪聲信號;

        48、將所述混響掩碼與所述語音編碼特征相乘后進行一維反卷積處理,確定所述待識別語音中包含的混響信號;

        49、在所述待識別語音中濾除所述噪聲信號和混響信號,確定所述純凈語音。

        50、本公開實施例還提供一種電子設備,包括:處理器、存儲器和總線,所述存儲器存儲有所述處理器可執行的機器可讀指令,當電子設備運行時,所述處理器與所述存儲器之間通過總線通信,所述機器可讀指令被所述處理器執行時執行上述語音真偽的識別方法,或上述語音真偽的識別方法中任一種可能的實施方式中的步驟。

        51、本公開實施例還提供一種計算機可讀存儲介質,該計算機可讀存儲介質上存儲有計算機程序,該計算機程序被處理器運行時執行上述語音真偽的識別方法,或上述語音真偽的識別方法中任一種可能的實施方式中的步驟。

        52、本公開實施例提供的一種語音真偽的識別方法、裝置、電子設備及存儲介質,通過獲取待識別語音;將待識別語音輸入至預先訓練好的多任務學習模型,過濾待識別語音中包含的噪聲信號和混響信號,確定待識別語音對應的純凈語音,并將純凈語音分類為多個說話人語音;針對多個說話人語音中的每一個,將該說話人語音輸入至預設的級聯殘差網絡,確定說話人語音對應的語音特征信息;將語音特征信息輸入至由一維卷積網絡和壓縮激勵網絡構成的預設特征聚合網絡,在空間維度和通道維度聚合語音特征信息中包括的真偽特征信息,確定說話人語音對應的真偽特征向量;將真偽特征向量經過預設損失函數的處理,確定說話人語音對應的真偽識別結果。可以在語音數據層面降低噪聲、混響、遠場拾音的干擾,同時利于提取真偽的全局信息,丟棄信道等殘差信息,提高了泛化場景的語音鑒偽能力。

        53、為使本公開的上述目的、特征和優點能更明顯易懂,下文特舉較佳實施例,并配合所附附圖,作詳細說明如下。

        當前第1頁1 2 
        當前第1頁1 2 
        網友詢問留言 留言:0條
        • 還沒有人留言評論。精彩留言會獲得點贊!
        1
        主站蜘蛛池模板: 亚洲精品一二三四| 亚洲国产成人va在线观看天堂| 国产夜射| 欧美 日韩 国产 成人 在线观看| 美女胸18大禁视频网站| 亚洲人成网站77777在线观看| の无码热の有码热の综合| a亚洲欧美中文日韩在线v日本| 日韩理伦片一区二区三区| 久操国产| 性动态图无遮挡试看30秒| 自拍偷拍午夜福利视频| 福利视频网址| 欧美506070老妇乱子伦| 久久涩综合一区二区三区| 亚洲成人av| 天天色成人综合网| 国产精品不卡片视频免费观看| 亚洲精品中文字幕尤物综合| 精品偷拍被偷拍在线观看| 人妻 日韩 欧美 综合 制服| 日本乱伦中文字幕| 亚洲a∨无码一区二区三区| 人人人澡人人肉久久精品| 国产成人精品综合久久久| 精品三级久久久久久久电影| 可以直接看的无码av| 水蜜桃av无码| 国产免费爽爽视频| 又黄又湿又爽的视频| 国产av一区二区三区人妻 | 国产尤物二区三区在线观看| 成人硅胶娃做爰无码www| 免费国产一级 片内射老| 欧美激情第一欧美在线| 亚洲另类欧美综合久久图片区| 国产精品亚洲综合色区韩国| 一区二区三区精品偷拍| 国产精品久久| 狠狠人妻久久久久久综合麻豆| 国产男女猛视频在线观看网站|