本技術涉及人工智能,尤其涉及一種音樂版權識別方法、系統、設備及存儲介質。
背景技術:
1、隨著數字音樂平臺的快速發展,音樂作品在網絡環境中的傳播愈發頻繁,音樂版權侵權問題日益突出。現有音樂版權識別方式主要依賴人工審核或基于簡單音頻指紋匹配的系統,該類方式存在如下不足:
2、1)人工審核效率低、主觀性強,難以應對海量音樂數據;
3、2)現有音頻指紋匹配技術對音樂改編、混音、變速等處理形式的識別能力有限;
4、3)多數版權識別系統缺乏對音樂整體結構、旋律相似性及節奏特征的綜合分析,識別準確率受到限制;
5、4)現有技術中算法邏輯獨立存在,系統化程度不足,不利于在實際平臺中部署與擴展。
6、因此,有必要提供一種能夠對音樂音頻進行多維度智能分析的音樂版權識別方法,以提高版權識別的準確性與實用性。
技術實現思路
1、本技術提供了一種音樂版權識別方法、系統、設備及存儲介質,以解決現有音樂版權識別技術存在的識別能力弱、適配性差、效率低等問題。
2、第一方面,本技術提供了一種音樂版權識別方法,包括:
3、對音頻信號進行分段處理并提取音頻頻譜特征、節奏與節拍特征、旋律輪廓特征、時域與頻域統計特征,得到多維音頻特征;
4、利用訓練好的基于cnn和注意力機制的分析模型對所述多維音頻特征之間的關聯關系進行分析,得到特征參數集,并基于歷史相似度比對結果與人工標注結果之間的誤差,動態調整頻譜特征、節奏特征、旋律特征和統計特征在后續分析中的影響權重;
5、將所述特征參數集與存儲已授權音樂作品的版權特征向量數據庫中的特征向量數據進行分級相似度比對,生成比對結果;
6、其中所述分級相似度比對包括:
7、計算所述特征參數集與數據庫中所有向量的余弦相似度,設定第一閾值θ1,篩選出相似度≥θ1的向量作為候選集;
8、對所述候選集采用加權混合相似度進行二級比對,所述加權混合相似度的權重采用動態調整后的影響權重,設定第二閾值θ2,篩選出相似度≥θ2的向量作為高相似結果。
9、進一步地,所述對音頻信號進行分段處理并提取音頻頻譜特征、節奏與節拍特征、旋律輪廓特征、時域與頻域統計特征,得到多維音頻特征之前,還包括:
10、獲取待識別音樂的音頻信號,并對所述音頻信號進行預處理,所述預處理包括格式轉換、噪聲抑制及音量歸一化。
11、進一步地,所述對音頻信號進行分段處理并提取音頻頻譜特征、節奏與節拍特征、旋律輪廓特征、時域與頻域統計特征,得到多維音頻特征,包括:
12、采用固定幀長和重疊幀移策略,幀長20ms、幀移10ms,每100幀劃分為一個分析單元;
13、對每個分析單元提取22維頻譜特征集、2維節奏特征集、1維旋律輪廓特征、5維統計特征集;
14、將每個分析單元輸出的30維特征向量按音頻信號時間順序拼接為分析單元數×30的特征矩陣。
15、進一步地,所述對每個分析單元提取22維頻譜特征集、2維節奏特征集、1維旋律輪廓特征、5維統計特征集,包括:
16、提取20維梅爾頻率倒譜系數,并提取頻譜質心、頻譜帶寬2個輔助特征,構成22維頻譜特征集;
17、對音頻信號進行低通濾波,提取包絡信號e(t),計算自相關函數r(τ)?=?σ[e(t)×e(t+τ)],τ取值范圍為0.2~2秒,自相關函數峰值對應的τ為節拍周期,bpm=60/τ,節拍強度為峰值與均值的比值,bpm和節拍強度構成2維節奏特征集;
18、計算幀內音高f0,取值范圍50~1000hz,置信度低于0.7的幀標記為無音高,對音高軌跡進行3幀滑動平均濾波,消除異常值,以該幀音高與相鄰5幀均值的比值表示將音高軌跡歸一化為相對音高,構成1維旋律輪廓特征;
19、時域提取峰值因子、峭度、波形因子3個參數,頻域提取譜熵、譜平坦度2個參數,構成5維統計特征集。
20、進一步地,所述動態調整包括:
21、根據誤差ε=|預測相似度人工標注相似度|,按公式ω_new=?ω_old?×?(1+ε×λ)調整權重;其中,ω_old為調整前的權重,ω_new為調整后的權重,λ為權重調整靈敏度系數。
22、進一步地,所述加權混合相似度的計算公式為:
23、s?=?ω_s×s_s?+?ω_r×s_r?+?ω_m×s_m?+?ω_t×s_t
24、其中,ω_s為動態調整后的頻譜特征影響權重,ω_r為動態調整后的節奏特征影響權重,ω_m為動態調整后的旋律特征影響權重,ω_t?為動態調整后的統計特征影響權重,s_s為頻譜特征余弦相似度,s_r為節奏特征歐氏距離歸一化值,s_m為旋律特征動態時間規整相似度,s_t為統計特征曼哈頓距離歸一化值。
25、進一步地,所述將所述特征參數集與存儲已授權音樂作品的版權特征向量數據庫中的特征向量數據進行分級相似度比對,生成比對結果之后,還包括:
26、根據所述比對結果,結合預設的判斷規則,輸出版權識別結論,所述結論包括相似度等級、涉嫌侵權概率區間、匹配作品范圍。
27、第二方面,本技術提供了一種音樂版權識別系統,包括:
28、特征提取模塊,用于對音頻信號進行分段處理并提取音頻頻譜特征、節奏與節拍特征、旋律輪廓特征、時域與頻域統計特征,得到多維音頻特征;
29、智能分析模塊,用于利用訓練好的基于cnn和注意力機制的分析模型對所述多維音頻特征之間的關聯關系進行分析,得到特征參數集,并基于歷史相似度比對結果與人工標注結果之間的誤差,動態調整頻譜特征、節奏特征、旋律特征和統計特征在后續分析中的影響權重;
30、相似度比對模塊,用于將所述特征參數集與存儲已授權音樂作品的版權特征向量數據庫中的特征向量數據進行分級相似度比對,生成比對結果;
31、其中所述分級相似度比對包括:
32、計算所述特征參數集與數據庫中所有向量的余弦相似度,設定第一閾值θ1,篩選出相似度≥θ1的向量作為候選集;
33、對所述候選集采用加權混合相似度進行二級比對,所述加權混合相似度的權重采用動態調整后的影響權重,設定第二閾值θ2,篩選出相似度≥θ2的向量作為高相似結果。
34、第三方面,本技術提供了一種終端設備,包括存儲器、處理器以及存儲在存儲器中并可在處理器上運行的計算機程序,處理器執行計算機程序時實現如上所述的音樂版權識別方法。
35、第四方面,本技術提供了一種計算機可讀存儲介質,計算機可讀存儲介質存儲有計算機程序,計算機程序被處理器執行時實現如上所述的音樂版權識別方法。
36、本技術的上述技術方案具有如下優點:
37、本技術第一方面提供的音樂版權識別方法,通過對音頻信號進行分段處理并提取音頻頻譜特征、節奏與節拍特征、旋律輪廓特征、時域與頻域統計特征,得到多維音頻特征;利用訓練好的基于cnn和注意力機制的分析模型對所述多維音頻特征之間的關聯關系進行分析,得到特征參數集,并基于歷史相似度比對結果與人工標注結果之間的誤差,動態調整頻譜特征、節奏特征、旋律特征和統計特征在后續分析中的影響權重;將所述特征參數集與存儲已授權音樂作品的版權特征向量數據庫中的特征向量數據進行分級相似度比對,生成比對結果;能夠提升對各類音樂形式的識別準確率和處理效率,為版權核查提供可靠的輔助支持。
38、可以理解的是,上述第二方面、第三方面和第四方面的有益效果可以參見上述第一方面中的相關描述,在此不再贅述。