本技術涉及人機交互,特別涉及一種身份識別方法、裝置、設備及存儲介質。
背景技術:
1、當前,人機對話設備/語音對話設備在開放場景的實時語音對話應用中,存在對話主體(即說話人)不固定的技術特點,即存在多個用戶分別或同時與人工智能對話系統(tǒng)(如ai機器人)進行交互的情況,具體的應用場景包括展廳接待場景下面向不同訪客的智能交互、家庭陪伴場景下針對不同家庭成員的個性化語音對話等。
2、為了實現(xiàn)高質量及多樣化的語音對話效果,提高用戶體驗,通常需要語音對話設備對實時對話場景中的不同用戶的身份進行區(qū)分。當前主流的用戶身份識別方法通常是預采集生理特征,并在對話過程中采用實時檢索匹配的方式進行說話人身份識別,再實時計算聲紋,并將實時聲紋與聲紋庫做相似度比對來確定說話人id(即說話人身份)。但在實時對話場景中,將近一半的語音請求都是短語音,時長不超過3秒,語音越短匹配的準確率越低、難度也越大。
3、而針對基于人臉識別的身份識別方法,在畫面中有多個人時無法確認是誰在對話,為了解決上述問題,當前還提出了“說話人識別”(指的是將一段語音與視頻中不同人臉時間序列進行聯(lián)合匹配來確定是哪張人臉在發(fā)出這段語音)的音視頻口型匹配技術,這種方式雖然能從實時畫面的多個人中選出與聲音關聯(lián)度最高的人臉,但大部分模型都是離線推理模型,推理速度太慢,無法滿足實時身份識別的需求。
技術實現(xiàn)思路
1、有鑒于此,本技術的目的在于提供一種身份識別方法、裝置、設備及存儲介質,能夠提高用戶身份識別的準確度,同時可以滿足實時身份識別的需求。其具體方案如下:
2、第一方面,本技術公開了一種身份識別方法,應用于語音對話設備,包括:
3、在符合預設授權條件下,獲取出現(xiàn)在預設攝像頭區(qū)域內的當前用戶的視頻流數(shù)據(jù),以及所述當前用戶與所述語音對話設備對話過程中產(chǎn)生的語音流數(shù)據(jù);所述預設授權條件為所述語音對話設備已預先獲取預設攝像頭區(qū)域內各用戶的針對人臉信息和語音信息采集和識別操作的授權;
4、通過人臉向量化模型對所述視頻流數(shù)據(jù)進行人臉特征提取,得到人臉特征向量,并從預先創(chuàng)建的人臉向量庫中查詢是否存在與所述人臉特征向量對應的人臉簇;
5、若所述人臉向量庫中存在與所述人臉特征向量對應的人臉簇,則通過聲紋向量化模型對所述語音流數(shù)據(jù)進行聲紋特征提取,得到聲紋特征向量,并從預先創(chuàng)建的聲紋向量庫中查詢是否存在與所述聲紋特征向量對應的聲紋簇;
6、若所述聲紋向量庫中存在與所述聲紋特征向量對應的聲紋簇,則檢測所述視頻流數(shù)據(jù)中各幀圖像內不同人臉部位的關鍵點,得到臉部關鍵點;所述臉部關鍵點包含嘴部關鍵點;
7、基于所述臉部關鍵點確定各幀圖像中嘴部的嘴巴張合程度,并基于所述嘴巴張合程度以及所述語音流數(shù)據(jù)對應的語音起止時間點,判斷所述當前用戶是否為當前說話人;
8、若所述當前用戶為當前說話人,則從關系圖數(shù)據(jù)庫中查詢與所述人臉簇和所述聲紋簇存在關聯(lián)關系的目標用戶標識,并基于所述目標用戶標識確定所述當前用戶的身份。
9、可選的,所述通過聲紋向量化模型對所述語音流數(shù)據(jù)進行聲紋特征提取,得到聲紋特征向量,包括:
10、對所述語音流數(shù)據(jù)進行語音降噪處理,得到降噪后語音流數(shù)據(jù);
11、通過語音活動檢測模型對所述降噪后語音流數(shù)據(jù)進行切分,得到多段切分后語音流數(shù)據(jù);
12、通過聲紋向量化模型依次對所述切分后語音流數(shù)據(jù)進行聲紋特征提取,得到聲紋特征向量。
13、可選的,所述通過聲紋向量化模型依次對所述切分后語音流數(shù)據(jù)進行聲紋特征提取,得到聲紋特征向量,包括:
14、判斷所述切分后語音流數(shù)據(jù)的時長是否小于第一時長;
15、若所述切分后語音流數(shù)據(jù)的時長不小于第一時長,則判斷所述切分后語音流數(shù)據(jù)的幅值是否低于預設幅度閾值;
16、若所述切分后語音流數(shù)據(jù)的幅值不低于預設幅度閾值,則通過聲紋向量化模型對所述切分后語音流數(shù)據(jù)進行聲紋特征提取,得到聲紋特征向量。
17、可選的,所述從預先創(chuàng)建的人臉向量庫中查詢是否存在與所述人臉特征向量對應的人臉簇,包括:
18、依次計算所述人臉特征向量與位于人臉向量庫的各個人臉簇中的人臉特征向量之間的相似度,得到人臉相似度,并判斷所述人臉相似度是否超過第一相似度閾值;
19、若所述人臉相似度超過第一相似度閾值,則判定所述人臉向量庫中存在與所述人臉特征向量對應的人臉簇;
20、相應的,所述從預先創(chuàng)建的聲紋向量庫中查詢是否存在與所述聲紋特征向量對應的聲紋簇,包括:
21、依次計算所述聲紋特征向量與位于聲紋向量庫的各個聲紋簇中的聲紋特征向量之間的相似度,得到聲紋相似度,并判斷所述聲紋相似度是否超過第二相似度閾值;
22、若所述聲紋相似度超過第二相似度閾值,則判定所述聲紋向量庫中存在與所述聲紋特征向量對應的聲紋簇。
23、可選的,所述身份識別方法,還包括:
24、若所述人臉向量庫中的所有人臉簇對應的所述人臉相似度均未超過第一相似度閾值,則判定所述人臉向量庫中不存在與所述人臉特征向量對應的人臉簇,并在所述人臉向量庫中創(chuàng)建與所述人臉特征向量對應的第一簇標識,再將所述人臉特征向量與所述第一簇標識進行綁定;
25、若所述聲紋向量庫中的所有聲紋簇對應的所述聲紋相似度均未超過第二相似度閾值,則判定所述聲紋向量庫中不存在與所述聲紋特征向量對應的聲紋簇,并在所述聲紋向量庫中創(chuàng)建與所述聲紋特征向量對應的第二簇標識,再將所述聲紋特征向量與所述第二簇標識進行綁定;
26、在關系圖數(shù)據(jù)庫中分別創(chuàng)建與所述第一簇標識和所述第二簇標識對應的第一節(jié)點和第二節(jié)點,為所述當前用戶分配目標用戶標識,并基于所述目標用戶標識建立所述第一節(jié)點和所述第二節(jié)點之間的關聯(lián)關系。
27、可選的,所述通過聲紋向量化模型對所述語音流數(shù)據(jù)進行聲紋特征提取,得到聲紋特征向量之前,還包括:
28、統(tǒng)計與所述人臉特征向量對應的人臉簇中的人臉特征向量的數(shù)量,得到人臉向量數(shù)量,并判斷所述人臉向量數(shù)量是否超過第一數(shù)量閾值;
29、若所述人臉向量數(shù)量未超過第一數(shù)量閾值,則將所述人臉特征向量添加至所述人臉簇中;
30、相應的,所述從關系圖數(shù)據(jù)庫中查詢與所述人臉簇和所述聲紋簇存在關聯(lián)關系的目標用戶標識之前還包括:
31、統(tǒng)計與所述聲紋特征向量對應的聲紋簇中的聲紋特征向量的數(shù)量,得到聲紋向量數(shù)量,并判斷所述聲紋向量數(shù)量是否超過第二數(shù)量閾值;
32、若所述聲紋向量數(shù)量超過第二數(shù)量閾值,則按照時間優(yōu)先級規(guī)則將所述聲紋特征向量替換所述聲紋簇中的聲紋特征向量;
33、若所述聲紋向量數(shù)量未超過第二數(shù)量閾值,則判斷所述切分后語音流數(shù)據(jù)的時長是否超過第二時長;
34、若所述切分后語音流數(shù)據(jù)的時長超過第二時長,則將所述聲紋特征向量添加至所述聲紋簇中。
35、可選的,所述檢測所述視頻流數(shù)據(jù)中各幀圖像內不同人臉部位的關鍵點,得到臉部關鍵點,包括:
36、通過預設人臉檢測模型分別對所述視頻流數(shù)據(jù)中的各幀圖像進行人臉檢測,得到人臉檢測結果;所述人臉檢測結果包括人臉檢測框、檢測框置信度;
37、將所述人臉檢測結果輸入至目標追蹤模型,以對所述視頻流數(shù)據(jù)中連續(xù)幀圖像之間位置滿足預設相近條件的人臉檢測框通過track_id進行跨幀關聯(lián);
38、將所述人臉檢測結果輸入至3d關鍵點檢測模型,以檢測各人臉檢測框內不同人臉部位的關鍵點,得到臉部關鍵點;所述臉部關鍵點包含嘴部關鍵點;
39、相應的,所述基于所述臉部關鍵點確定各幀圖像中嘴部的嘴巴張合程度,并基于所述嘴巴張合程度以及所述語音流數(shù)據(jù)對應的語音起止時間點,判斷所述當前用戶是否為當前說話人,包括:
40、基于所述臉部關鍵點計算相應幀圖像中每張人臉的嘴巴張合程度,得到嘴巴張合值;
41、通過滑動窗口投票的方式并基于所述track_id,從張合值序列中獲取最大值和最小值;所述張合值序列為所述視頻流數(shù)據(jù)中同一張人臉在不同幀圖像內的嘴部區(qū)域對應的所有所述嘴巴張合值;
42、計算最大值與所述最小值的差值,得到第一差值,并判斷所述第一差值是否小于預設閾值;
43、若所述第一差值不小于預設閾值,則判定所述當前用戶處于對話狀態(tài),對處于對話狀態(tài)的所有幀圖像的數(shù)量進行統(tǒng)計,得到統(tǒng)計結果;
44、判斷所述統(tǒng)計結果對應的時間段長度是否與第二差值匹配;所述第二差值為所述切分后語音流數(shù)據(jù)對應的語音起止時間點的時間差;
45、若所述統(tǒng)計結果對應的時間段長度與第二差值匹配,則判定所述當前用戶為當前說話人;
46、若所述統(tǒng)計結果對應的時間段長度與第二差值不匹配,則判定所述當前用戶不是當前說話人。
47、第二方面,本技術公開了一種身份識別裝置,應用于語音對話設備,包括:
48、獲取模塊,用于在符合預設授權條件下,獲取出現(xiàn)在預設攝像頭區(qū)域內的當前用戶的視頻流數(shù)據(jù),以及所述當前用戶與所述語音對話設備對話過程中產(chǎn)生的語音流數(shù)據(jù);所述預設授權條件為所述語音對話設備已預先獲取預設攝像頭區(qū)域內各用戶的針對人臉信息和語音信息采集和識別操作的授權;
49、人臉特征提取模塊,用于通過人臉向量化模型對所述視頻流數(shù)據(jù)進行人臉特征提取,得到人臉特征向量;
50、第一查詢模塊,用于從預先創(chuàng)建的人臉向量庫中查詢是否存在與所述人臉特征向量對應的人臉簇;
51、聲紋特征提取模塊,用于如果所述人臉向量庫中存在與所述人臉特征向量對應的人臉簇,則通過聲紋向量化模型對所述語音流數(shù)據(jù)進行聲紋特征提取,得到聲紋特征向量;
52、第二查詢模塊,用于從預先創(chuàng)建的聲紋向量庫中查詢是否存在與所述聲紋特征向量對應的聲紋簇;
53、檢測模塊,用于如果所述聲紋向量庫中存在與所述聲紋特征向量對應的聲紋簇,則檢測所述視頻流數(shù)據(jù)中各幀圖像內不同人臉部位的關鍵點,得到臉部關鍵點;所述臉部關鍵點包括嘴部關鍵點;
54、判斷模塊,用于基于所述臉部關鍵點確定各幀圖像中嘴部的嘴巴張合程度,并基于所述嘴巴張合程度以及所述語音流數(shù)據(jù)對應的語音起止時間點,判斷所述當前用戶是否為當前說話人;
55、身份識別模塊,用于如果所述當前用戶為當前說話人,則從關系圖數(shù)據(jù)庫中查詢與所述人臉簇和所述聲紋簇存在關聯(lián)關系的目標用戶標識,并基于所述目標用戶標識確定所述當前用戶的身份。
56、第三方面,本技術公開了一種電子設備,包括處理器和存儲器;其中,所述處理器執(zhí)行所述存儲器中保存的計算機程序時實現(xiàn)前述的身份識別方法。
57、第四方面,本技術公開了一種計算機可讀存儲介質,用于存儲計算機程序;其中,所述計算機程序被處理器執(zhí)行時實現(xiàn)前述的身份識別方法。
58、可見,本技術應用于語音對話設備,在符合預設授權條件(為語音對話設備已預先獲取預設攝像頭區(qū)域內各用戶的針對人臉信息和語音信息采集和識別操作的授權)下,獲取出現(xiàn)在預設攝像頭區(qū)域內的當前用戶的視頻流數(shù)據(jù),以及當前用戶與語音對話設備對話過程中產(chǎn)生的語音流數(shù)據(jù),然后通過人臉向量化模型對視頻流數(shù)據(jù)進行人臉特征提取得到人臉特征向量,并從預先創(chuàng)建的人臉向量庫中查詢是否存在與人臉特征向量對應的人臉簇,如果人臉向量庫中存在與人臉特征向量對應的人臉簇,則通過聲紋向量化模型對語音流數(shù)據(jù)進行聲紋特征提取得到聲紋特征向量,并從預先創(chuàng)建的聲紋向量庫中查詢是否存在與聲紋特征向量對應的聲紋簇,如果聲紋向量庫中存在與聲紋特征向量對應的聲紋簇,則檢測視頻流數(shù)據(jù)中各幀圖像內不同人臉部位的關鍵點,得到臉部關鍵點(包含嘴部關鍵點),再基于臉部關鍵點確定各幀圖像中嘴部的嘴巴張合程度,并基于嘴巴張合程度以及語音流數(shù)據(jù)對應的語音起止時間點,判斷當前用戶是否為當前說話人,如果當前用戶為當前說話人,則從關系圖數(shù)據(jù)庫中查詢與人臉簇和聲紋簇存在關聯(lián)關系的目標用戶標識,并基于目標用戶標識確定當前用戶的身份。本技術在符合預設授權條件下,先對預設攝像頭區(qū)域內的視頻流數(shù)據(jù)進行人臉特征提取得到人臉特征向量,并從預先創(chuàng)建的人臉向量庫中查詢是否存在與當前人臉特征向量對應的人臉簇,如果存在則對語音流數(shù)據(jù)進行聲紋特征提取得到聲紋特征向量,并從預先創(chuàng)建的聲紋向量庫中查詢是否存在與當前聲紋特征向量對應的聲紋簇,如果存在則檢測各幀圖像內不同人臉部位的關鍵點(包含嘴部關鍵點),并基于關鍵點確定嘴巴張合程度,然后基于嘴巴張合程度以及語音流數(shù)據(jù)對應的語音起止時間點判斷當前用戶是否為當前說話人,如果是則從關系圖數(shù)據(jù)庫中查詢與人臉簇和聲紋簇存在關聯(lián)關系的用戶標識,并基于用戶標識對當前說話人的身份進行識別,可見本技術具體是通過三個向量庫(分別為人臉向量庫、聲紋向量庫、關系圖數(shù)據(jù)庫)之間的相互協(xié)同,并基于語音流和視頻流兩種模態(tài)的數(shù)據(jù)實現(xiàn)當前用戶的身份查詢和匹配,通過上述多模態(tài)的身份識別方式,可以提高身份識別的準確性,另外,本技術通過嘴巴張合程度以及語音起止時間點判斷當前用戶是否為當前說話人,這樣一來,能夠避免誤判,從而進一步提高了用戶身份識別的準確性,并且這種判斷方式簡單,不涉及復雜的模型推理,因此可以滿足實時身份識別的需求。