確定語音關系的制作方法

文檔序號：14268158研發日期：2017年閱讀：264來源：國知局

技術簡介：
本專利提出一種語音關系識別方法，通過將用戶輸入的文本短語轉換為音頻并轉錄為文本，再與測試短語進行文本匹配和語音距離閾值分析，解決傳統語音匹配中因發音差異導致的誤判問題。該方法結合語音合成、文本轉錄和語音特征比對，實現更精準的語音關系判定。
關鍵詞：語音關系識別,文本轉錄匹配,語音距離閾值

本公開總體上涉及確定兩個或兩個以上短語之間的語音關系。

背景技術：

言語識別已經變為與計算設備交互的廣泛采用并且頻繁使用的模式。言語輸入可以比傳統輸入模式(諸如通過鍵盤鍵入)更方便并且更高效。例如，移動計算設備可以提供言語識別服務作為通過觸摸屏上的虛擬鍵盤鍵入字符的備選輸入模式。一些計算設備被配置成從用戶接受聲音命令，例如作為在計算設備上執行某些動作的快捷方式。以這種方式，這樣的計算設備能夠被配置成解譯聲音命令，并且基于聲音命令解譯而執行一個或多個動作。

在一些實例中，計算應用或服務的開發者能夠選擇能夠由一個或多個用戶使用以調用計算設備上的計算應用或服務的聲音命令。確保這樣的所選擇的聲音命令與已保留以調用其他計算應用或服務的其他聲音命令語音上不同能夠是重要的。以這種方式，向開發者或其他方指示由開發者或其他方所選擇的聲音命令是否與一個或多個所保留的聲音命令語音上類似能夠是有益的。

技術實現要素：

本公開的實施例的各方面和優點將在以下描述中部分地闡述或者可以從描述學習或者可以通過實施例的實踐學習。

本公開的一個示例方面涉及一種確定兩個或兩個以上短語之間的語音關系的計算機實現的方法。方法包括通過一個或多個計算設備接收指示由用戶輸入的輸入文本短語的數據。方法還包括通過一個或多個計算設備確定對應于輸入文本短語的口語呈現的音頻輸出。方法還包括通過一個或多個計算設備確定輸入文本短語的音頻輸出的文本轉錄。文本轉錄包括音頻輸出的文本表示。方法還包括通過一個或多個計算設備將文本轉錄與多個測試短語相比較來標識文本轉錄與至少一個測試短語之間的匹配。

本公開的其他示例方面涉及用于確定語音關系的系統、裝置、有形非瞬態計算機可讀介質、用戶界面、存儲器設備和電子設備。

各種實施例的這些和其他特征、方面和優點將參考以下描述和隨附的權利要求變得更好理解。并入本說明書中并且構成其一部分的附圖圖示了本公開的實施例，并且連同說明書用于解釋相關的原理。

附圖說明

在參考附圖的說明書中闡述涉及本領域的普通技術人員的實施例的詳細討論，其中：

圖1描繪了根據本公開的示例實施例的用于確定語音關系的示例系統的概述；

圖2描繪了根據本公開的示例實施例的示例用戶界面；

圖3描繪了根據本公開的示例實施例的確定語音關系的示例方法的流程圖；以及

圖4描繪了根據本公開的示例實施例的示例系統。

具體實施方式

現在將詳細參考實施例，其中的一個或多個示例被圖示在附圖中。通過實施例的解釋而非本公開的限制的方式提供每個示例。實際上，對于本領域的技術人員而言將明顯的是，可以對實施例做出各種修改和變型而不脫離本公開的范圍或精神。例如，被圖示或被描述為一個實施例的一部分的特征可以與另一實施例一起被用于產生又一實施例。因此，本公開的各方面旨在覆蓋這樣的修改和變型。

本公開的示例方面涉及確定兩個或兩個以上短語之間的語音關系。如本文所使用的，術語“短語”能夠被定義為一個或多個字母的序列。例如，短語能夠包含組成一個或多個詞語的字母的序列。輸入文本短語能夠被轉換為對應于輸入文本短語的合成言語呈現的音頻輸出。然后能夠例如使用言語識別技術來確定音頻輸出的文本轉錄。文本轉錄能夠然后與多個測試短語相比較來確定文本轉錄與多個測試短語中的一個或多個之間的確切匹配。如果沒有找到確切匹配，則能夠確定輸入文本短語與測試短語中的每個測試短語語音上不同。以這種方式，輸入文本短語的音頻輸出能夠表示輸入文本短語的語音發音。通過將輸入文本短語轉換為音頻輸出并且隨后地將音頻輸出轉換為文本格式，能夠確定輸入文本短語的語音發音的文本表示(例如，文本轉錄)。

在一些實施方式中，本公開的示例方面能夠被實現在聲音命令驗證系統內或與其相關聯。以這種方式，根據本公開的示例方面的兩個或兩個以上短語之間的語音關系的確定能夠被用于確定所提出的聲音命令是否是與已經由計算平臺使用的多個保留的聲音命令(例如，測試短語)語音上不同的授權的聲音命令。以這種方式，能夠確保單個聲音命令(或多個語音上類似的聲音命令)不被用于調用與計算平臺相關聯的多個計算應用或服務。如此，由計算平臺所執行的操作的數目能夠減少，例如由無意地調用的應用所執行的操作、或請求由用戶造成的聲音命令的澄清和應答的處理的操作。計算平臺的處理器的操作能夠減少并且因此計算平臺的功耗能夠減少。

作為一個特定示例，“profit(利潤)”的輸入文本短語能夠由用戶輸入。輸入文本短語能夠被轉換為對應于詞語“profit”的合成言語呈現的音頻輸出。能夠確定音頻輸出的文本轉錄。例如，文本轉錄能夠是讀作“prophet(先知)”的轉錄，其是詞語“profit”的同音詞(例如，與其語音上類似)。文本轉錄能夠與測試短語的列表相比較來標識文本轉錄與測試短語中的一個或多個之間的匹配。如果測試短語的列表包括詞語“prophet”，則能夠找到匹配，并且輸入文本短語“profit”能夠被標識為與在測試短語的列表中找到的詞語“prophet”語音上類似。

更特別地，輸入文本短語能夠是以文本形式由用戶輸入的一個或多個詞語的序列。輸入文本短語能夠由用戶例如使用與諸如智能電話、平板電腦、膝上型計算設備、臺式計算設備、可穿戴計算設備或其他適合的用戶設備的用戶計算設備相關聯的鍵盤(例如，觸摸鍵盤或物理鍵盤)或小型鍵盤輸入。輸入文本短語能夠被轉換為對應于輸入文本短語的人工產生的言語的音頻輸出。音頻輸出能夠是被配置用于由音頻播出設備播放的音頻波形。輸入文本短語能夠使用各種適合的言語合成或文本到言語技術而被轉換為音頻輸出。

例如，在一些實施方式中，將輸入文本短語轉換為音頻輸出能夠包括確定與文本的口語呈現應該聽起來如何的符號表示相對應的輸入文本短語的語音轉錄。語音轉錄能夠包括語音言語單元——諸如音素、單音或其他適合的語音言語單元——的序列。語音言語單元能夠對應于一段言語的聲學表示。在一些實施方式中，輸入文本短語能夠被分解為詞語的序列，并且輸入文本短語中的每個詞語能夠被轉換為音素的序列以確定語音轉錄。在一些實施方式中，輸入文本短語的每個詞語能夠被轉換為字素的序列。如本領域的技術人員將理解到，字素通常指代給定語言的書寫系統的最小單位。字素能夠然后被轉換為音素的序列來確定語音轉錄。在一些實施方式中，能夠進一步確定輸入文本短語的一個或多個韻律特征(例如，與語言功能相關聯的特征，諸如語調、音調、重音、節奏等)。

語音轉錄能夠然后被映射到對應于語音轉錄的口語呈現的音頻輸出。在一些實施方式中，至少部分地基于與語音轉錄相關聯的韻律特征，語音轉錄能夠被映射到對應的音頻輸出。例如，在一些實施方式中，語音轉錄能夠被映射到對應于語音轉錄的聲學呈現的一個或多個聲學特征。聲學特征能夠采取特征向量的形式(例如，美爾頻率倒譜系數(melfrequencycepstralcoefficients)或其他適合的特征向量)，其包括言語波形的可量化性質，諸如例如頻率和光譜功率。聲學特征能夠然后被轉變為表示聲學特征的言語波形的物理性質。音頻輸出能夠被生成為能夠存儲或記錄在計算機可讀介質上的音頻文件。例如，音頻文件能夠適于由音頻播出設備對音頻文件的后續播放。將理解到，各種適合的言語合成技術能夠被用于將語音轉錄映射到音頻輸出，諸如例如拼接合成、單位選擇合成、雙音合成、領域特定合成、格式合成、發音參數合成、基于隱藏馬爾可夫模型(hmm)的合成、正弦波合成和/或其他適合的言語合成技術。

音頻輸出能夠隨后地使用一個或多個適合的言語識別技術被轉換為文本格式。以這種方式，能夠確定音頻輸出的文本轉錄。特別地，確定文本轉錄能夠包括確定與音頻輸出相關聯的一個或多個聲學特征。例如，音頻輸出能夠被分段為多個段，并且能夠針對每個段確定一個或多個聲學特征(例如，特征向量)。特征向量能夠被映射到一個或多個音素。指示映射的音素和/或特征向量的數據能夠被提供到一個或多個語言模型(例如，n元語法語言模型或其他適合的語言模型)。一個或多個語言模型能夠被用于確定音頻輸出的轉錄。在一些實施方式中，文本轉錄能夠被提供到通用或基線語言模型。這樣的通用語言模型能夠包括多個常用短語。通用語言模型還能夠包括與每個短語相關聯的概率估計。概率估計能夠指定給定序列中的每個短語的發生的概率的估計。以這種方式，給定一個或多個先前發出的詞語，通用語言模型能夠定義詞語的發生的所估計的概率。在一些實施方式中，一個或多個聲學模型(隱藏馬爾可夫模型、神經網絡等)還能夠被用于確定音頻輸出的轉錄。這樣的聲學模型能夠定義多個音頻信號與語音言語單元之間的統計關系。

在一些實施方式中，確定音頻輸出的轉錄能夠包括將指示所確定的特征向量和/或所映射的音素的數據提供給偏置或專用語言模型。例如，能夠通過使通用語言模型朝向多個測試短語偏置生成偏置語言模型。特別地，能夠通過增加被包括在多個測試短語中的短語的概率估計來生成偏置語言模型。以這種方式，偏置語言模型能夠指定測試短語的發生的增加的估計概率。

以這種方式，能夠至少部分地基于偏置語言模型和/或通用語言模型來確定音頻輸出的文本轉錄。在一些實施方式中，能夠使用通用語言模型確定第一轉錄并且能夠使用偏置語言模型確定第二轉錄。特別地，能夠針對第一轉錄確定第一置信度識別得分并且能夠針對第二轉錄確定第二置信度識別得分。置信度識別得分能夠相應地指定轉錄的準確度的估計置信度。能夠至少部分地基于置信度識別得分來選擇轉錄。例如，所選擇的轉錄能夠是具有更高的置信度識別得分的轉錄。在一些實施方式中，能夠確定并且選擇表示轉錄中的一個或多個詞語的備選拼寫的多個文本轉錄。例如，在繼續上述使用“profit”的輸入文本短語的示例中，能夠選擇詞語“profit”的第一文本轉錄并且能夠選擇詞語“prophet”的第二文本轉錄。

一旦確定音頻輸出的文本轉錄，文本轉錄就能夠與多個測試短語相比較來確定文本轉錄是否被包括在多個測試短語中。在選擇多個文本轉錄的實施方式中，每個文本轉錄能夠與多個測試短語相比較。以這種方式，多個測試短語能夠被搜索以確定測試短語中的一個或多個與文本轉錄之間的直接匹配。如果沒有找到直接匹配，則能夠確定輸入文本短語與多個測試短語語音上不同。如果找到直接匹配，則能夠確定輸入文本短語與一個或多個測試短語語音上相同或者類似。

在一些實施方式中，如果在文本轉錄與一個或多個測試短語之間找到直接匹配，則能夠確定輸入文本短語與文本轉錄之間的語音距離。語音距離能夠被確定以確定輸入文本短語是否與文本轉錄語音上類似。語音距離的這種確定能夠被用于驗證輸入文本短語與一個或多個測試短語語音上相同或者類似的確定。以這種方式，如果輸入文本短語與文本轉錄語音上類似，則能夠確定：因為文本轉錄被確定為語音上與一個或多個測試短語相同，并且輸入文本短語被確定為語音上與文本轉錄類似，所以輸入文本短語與一個或多個測試短語語音上類似。

能夠通過輸入文本短語和文本轉錄轉換為相應的音素序列來確定語音距離。特別地，能夠針對輸入文本短語確定第一音素序列，并且能夠針對文本轉錄確定第二音素序列。然后能夠至少部分地基于第一音素序列和第二音素序列來確定語音距離。例如，能夠通過確定與第一音素序列不同的第二音素序列的音素的數目來確定語音距離(例如，來自將需要被改變以便匹配第一音素序列的第二音素序列的音素的數目)。

如果語音距離小于預定義閾值，則能夠確定輸入文本短語與文本轉錄語音上類似。以這種方式，能夠確定輸入文本短語與一個或多個測試短語語音上類似。如果語音距離大于閾值，則能夠推斷輸入文本短語與多個測試短語語音上不同。在一些實施方式中，如果語音距離大于閾值，則能夠再次執行整個過程。

根據本公開的示例方面確定短語之間的語音關系能夠允許這種語音關系被實時或近實時地確定。以這種方式，一旦將輸入文本短語輸入到用戶設備，就能夠例如實時或近實時地在用戶設備的用戶界面內向用戶提供輸入文本短語與測試短語之間的語音關系的指示用戶界面。能夠使用與常規語音關系確定技術相比較更少的處理資源、帶寬和/或數據傳輸執行這種語音關系確定技術。根據本公開的示例方面確定語音關系所要求的時間和資源不取決于多個測試短語中的測試短語的數目。以這種方式，多個測試短語能夠包括任何適合的數目的測試短語而不犧牲確定技術的質量。更進一步地，這樣的語音關系確定技術不依賴于成批處理。

現在參考附圖，將更詳細地討論本公開的示例方面。例如，圖1描繪了確定兩個或兩個以上短語之間的語音相似性的示例系統100的概述。系統100包括用戶設備102和服務器104。用戶設備102能夠是任何適合的用戶設備，諸如智能電話、平板電腦、膝上型計算機、臺式計算機、可穿戴計算設備或其他適合的用戶設備。服務器104包括言語合成器106、音頻轉錄器108和語音關系確定器110。用戶設備102能夠例如經由網絡與服務器104通信。在一些實施方式中，能夠在用戶設備102上本地執行與言語合成器106、音頻轉錄器108和/或語音關系確定器110相關聯的一個或多個功能。

用戶設備102能夠被配置成從用戶接收指示輸入文本短語的輸入。特別地，用戶設備102能夠被配置成例如在與用戶設備相關聯的顯示設備上顯示用戶界面。用戶界面能夠提示用戶對輸入文本短語進行輸入。例如，圖2描繪了根據本公開的示例實施例的顯示示例用戶界面120的示例用戶設備102。用戶界面120包括被配置成接收文本輸入的文本字段122。用戶能夠例如使用鍵盤124將輸入文本短語輸入到文本字段122中。用戶能夠通過與提交接口元件126交互來提交請求。鍵盤124能夠是被顯示在用戶界面120內的觸摸鍵盤。將理解到，能夠使用各種其他適合的輸入設備，諸如物理鍵盤、小鍵盤或其他適合的輸入設備。

一旦確定輸入文本短語和一個或多個測試短語之間的語音關系(例如，輸入文本短語是與一個或多個測試短語語音上不同，還是與其語音上類似)，用戶界面120就能夠被配置成將語音關系的指示提供給用戶。例如，在一些實施方式中，用戶界面能夠顯示表示語音關系的適合的指示。

一旦從用戶接收到輸入文本短語，用戶設備就能夠將指示輸入文本短語的數據提供到服務器104。服務器104能夠然后確定輸入文本短語是否與一個或多個測試短語112語音上類似。例如，返回參考圖1，言語合成器106能夠被配置成確定與輸入文本短語的合成口語呈現相對應的音頻輸出。例如，通過音頻設備的音頻輸出的播放能夠聽起來像正在說出輸入文本短語的詞語的人類聲音。

特別地，言語合成器106能夠被配置成通過確定輸入文本短語的語音轉錄來確定音頻輸出。如所指示的，語音轉錄能夠包括語音言語單元的序列，其各自對應于與輸入文本短語相關聯的一段言語的聲學表示。在一些實施方式中，語音轉錄能夠伴隨有指示語音轉錄的語音言語單元的適當和/或預期言語呈現的上下文信息。例如，上下文信息能夠包括輸入序列內的所標識的音素的相對位置(例如，左上下文、右上下文等)。上下文信息還能夠包括指示所標識的音素的聲學呈現的預期持續時間、和更多的延伸的波形內的音素的相對定時位置的定時信息。上下文信息還能夠包括指示音素的聲相位的狀態信息。

言語合成器106能夠例如至少部分地基于與語音轉錄相關聯的上下文信息來將語音轉錄映射到一個或多個預測的特征向量。言語合成器106能夠至少部分地基于映射來生成與語音轉錄相對應的預測的特征向量的集合。預測的特征向量能夠包括確定對應波形的聲學性質的聲學度量。以這種方式，預測的特征向量能夠被轉譯為對應于音頻輸出的波形。通過示例，特征向量能夠包括各種適合的聲學度量，諸如美爾倒譜系數(mel-cepstralcoefficients)、線譜對(linespectralpairs)、線性預測系數(linearpredictivecoefficients)、美爾廣義倒譜系數(mel-generalizedcepstralcoefficients)、基本頻率(f0)、非周期測量、對數功率譜或相位。

如所指示的，言語合成器106能夠將特征向量轉譯為與輸入文本短語的口語呈現相對應的音頻輸出波形。在一些實施方式中，言語合成器能夠通過將特征向量映射到被存儲在言語數據庫114中的預定義言語波形段來確定音頻輸出。將理解到，言語合成器106能夠使用各種適合的語音合成技術將語音轉錄映射到音頻輸出，諸如例如拼接合成、單位選擇合成、雙音合成、領域特定合成、格式合成、發音參數合成、基于隱藏馬爾可夫模型(hmm)的合成、正弦波合成和/或其他適合的言語合成技術。

在一些實施方式中，能夠使用諸如各種適合的語音、語音采樣率等的各種參數來確定音頻輸出。以這種方式，言語合成器106能夠通過調節這種參數來控制音頻輸出的保真度。

一旦確定音頻輸出，音頻轉錄器108就能夠被配置成使用一個或多個適合的言語識別技術來確定音頻輸出的文本轉錄。特別地，音頻轉錄器108能夠被配置成將音頻輸出波形分段為多個段，并且從多個段提取多個特征向量。音頻轉錄器108能夠然后至少部分地基于一個或多個言語識別模型116從特征向量生成詞序列。一個或多個言語識別模型能夠包括一個或多個聲學模型(例如，hmm、神經網絡、分段模型、超級分段模型、最大熵模型、條件隨機字段等)，以及一個或多個語言模型(例如，語法、n元語法語言模型、隨機語言模型等)。聲學模型能夠指定音頻輸出的統計性質。例如給定一個或多個先前地確定的詞語，語言模型能夠指定詞語的發生的概率估計。如本領域的技術人員將理解到，音頻轉錄器108能夠至少部分地基于言語識別模型116確定一個或多個詞語的序列，使得詞語的所確定的序列具有用于輸入特征向量的最大后驗概率。例如，在一些實施方式中，聲學轉錄器108能夠使用viterbi譯碼器來確定詞語的序列。

在一些實施方式中，言語識別模型116能夠包括通用語言模型和偏置語言模型。以這種方式，音頻轉錄器108能夠至少部分地基于通用語言模型和/或偏置語言模型來確定文本轉錄。如所指示的，例如，通過相對于在通用語言模型中所指定的多個測試短語112的概率估計增加與多個測試短語112相關聯的概率估計，偏置語言模型能夠至少部分地基于通用語言模型而確定。以這種方式，在一些實施方式中，能夠至少部分地基于偏置語言模型確定文本轉錄。

在一些實施方式中，音頻轉錄器108能夠使用通用語言模型確定第一轉錄并且使用偏置語言模型確定第二轉錄。音頻轉錄器108還能夠確定針對第一轉錄的第一置信度識別得分和針對第二轉錄的第二置信度識別得分。能夠至少部分地基于置信度得分來選擇第一轉錄或者第二轉錄。在一些實施方式中，能夠使用一個或多個附加語言模型來確定一個或多個附加轉錄。附加的轉錄能夠具有伴隨的置信度識別得分，使得至少部分地基于置信度識別得分來確定所選擇的轉錄。在一些實施方式中，多個轉錄能夠被選擇以容納詞語的備選拼寫。

一旦確定音頻輸出的文本轉錄，語音相似性確定器110能夠將文本轉錄的一個或多個詞語與多個測試短語112相比較來確定文本轉錄與一個或多個測試短語之間的匹配。如果確定匹配，則語音關系確定器110能夠確定輸入文本短語與一個或多個測試短語語音上類似。如果沒有確定匹配，則語音關系確定器110能夠確定輸入文本短語與每個測試短語語音上不同。

在一些實施方式中，如果在文本轉錄與一個或多個測試短語之間確定直接匹配，則語音關系確定器110能夠確定輸入文本短語與音頻輸出的文本轉錄之間的語音距離。特別地，語音關系確定器110能夠確定針對輸入文本短語和文本轉錄的語音轉錄。語音轉錄能夠包括相應地表示輸入文本短語和文本轉錄的語音言語單元的序列。例如，語音關系確定器110能夠確定針對輸入文本短語的第一語音轉錄和針對文本轉錄的第二語音轉錄。語音關系確定器110能夠然后至少部分地基于第一語音轉錄和第二語音轉錄來確定語音距離。語音距離能夠是文本轉錄與輸入文本短語多么不同的量化。語音關系確定器110能夠通過確定與第一語音轉錄不同的第二語音轉錄中的語音言語單位的數目來確定語音距離。

如果語音距離小于預定閾值，則語音關系確定器110能夠確定文本轉錄與輸入文本短語語音上類似，并且因此，輸入文本短語與和文本轉錄匹配的一個或多個文本短語語音上類似。如果語音距離大于閾值，則語音關系確定器110能夠確定文本轉錄與輸入文本短語語音上不相似，并且因此，輸入文本短語與多個測試短語語音上不同。

一旦確定輸入文本短語與一個或多個測試短語之間的語音關系，服務器104就能夠向用戶設備102提供語音關系的指示。例如，服務器104能夠向用戶設備102提供指示語音關系的一個或多個信號。作為示例，如果確定輸入文本短語與每個測試短語語音上不同，則一個或多個信號能夠指示輸入文本短語是語音上不同的。在語音關系確定技術與聲音命令驗證系統相關聯的實施方式中，一個或多個信號能夠包括提出的聲音命令(例如，輸入文本短語)與保留的聲音命令語音上不同和/或提出的聲音命令被授權以使用的指示。用戶設備102能夠然后向語音關系的用戶提供指示。例如，用戶設備102能夠在圖2中所描繪的用戶界面120內將指示展現給用戶。

圖3描繪了確定兩個或兩個以上短語之間的語音關系的示例方法(200)的流程圖。能夠通過諸如圖4中所描繪的計算設備中的一個或多個的一個或多個計算設備來實現方法(200)。另外，圖3描繪了出于圖示和討論的目的以特定順序所執行的步驟。使用本文所提供的本公開，本領域的普通技術人員將理解到，在本文中所討論的方法中的任一個的步驟能夠以各種方式適配、重新排列、擴展、省略或修改而不脫離本公開的范圍。

在(202)，方法(200)能夠包括接收指示輸入文本短語的數據。輸入文本短語能夠由用戶例如使用各種適合的文本輸入技術在用戶設備上輸入。輸入文本短語能夠是用戶希望與多個測試短語相比較以確定輸入文本短語與文本短語之間的語音關系的一個或多個詞語的序列。語音關系能夠指示輸入文本短語與測試短語是語音上不同還是與其語音上類似。

在(204)，方法(200)能夠包括對應于輸入文本短語的音頻輸出。特別地，音頻輸出能夠是與輸入文本短語的口語呈現相對應的波形。例如，音頻輸出的播放能夠聽起來像正在說出輸入文本短語的詞語的人類聲音。音頻輸出能夠表示輸入文本短語的語音發音。以這種方式，語音發音能夠獨立于被包括在文本輸入短語中的詞語的拼寫。音頻輸出能夠使用任何適合的言語合成技術確定。音頻輸出能夠被存儲為適于音頻播放的任何適合的音頻文件。以這種方式，音頻波形能夠被生成為可以存儲或記錄在適于后續播放的存儲介質上的音頻文件。

在(206)，方法(200)能夠包括確定音頻輸出的文本轉錄。文本轉錄能夠是以文本形式的音頻輸出的表示。在一些實例中，一個或多個詞語文本轉錄能夠具有輸入文本短語中的對應的詞語的備選拼寫。例如，文本轉錄能夠被確定為包括基于文本輸入短語的一個或多個詞語的備選拼寫。能夠使用任何適合的語音識別技術確定文本轉錄。例如，能夠使用一個或多個聲學模型和/或一個或多個語言模型確定文本轉錄。如所指示的，一個或多個語言模型能夠包括通用語言模型和/或偏置語言模型。偏置語言模型能夠至少部分地基于通用語言模型和多個測試短語而生成。

在(208)，方法(200)能夠包括將文本轉錄與多個測試短語相比較。例如，將文本轉錄與測試轉錄能夠包括搜索測試短語來確定文本轉錄是否匹配測試短語中的一個或多個。在(210)，方法(200)能夠包括確定文本轉錄是否匹配測試短語中的一個或多個。如果文本轉錄未匹配測試短語中的任一個，則在(212)，方法(200)能夠包括提供輸入文本短語與多個測試短語語音上不同的指示。

如果文本轉錄匹配測試短語中的一個或多個，則在(214)，方法(200)能夠包括確定輸入文本短語與文本轉錄之間的語音距離。如所指示的，確定語音距離能夠包括確定與輸入文本短語和文本轉錄相關聯的語音轉錄，并且比較該語音轉錄以確定不同的一個或多個語音言語單元。以這種方式，語音距離能夠指示與不同于與輸入文本短語相關聯的對應語音言語單元的文本轉錄相關聯的語音言語單元的數目。

在(216)，方法(200)能夠包括確定語音距離是否小于預定義語音距離閾值。如果語音距離小于(或等于)閾值，則在(218)，方法(200)能夠包括提供輸入文本短語與文本轉錄和/或一個或多個測試短語語音上類似的指示。如果語音距離大于閾值，則在(220)，方法(200)能夠包括提供輸入文本短語與多個測試短語語音上不同的指示。

在一些實施方式中，如果在(210)在文本轉錄與一個或多個測試短語之間確定匹配，則方法(200)可以繞開(214)和(216)，并且能夠直接地轉到(218)。以這種方式，一旦確定文本轉錄與一個或多個測試短語之間的匹配，則能夠確定輸入文本短語與一個或多個測試短語語音上類似而不必確定輸入文本短語與文本轉錄之間的語音距離。

圖4描繪了根據本公開的示例方面的能夠被用于實現方法和系統的示例計算系統300。能夠使用包括通過網絡340與一個或多個客戶端設備330通信的服務器310的客戶端-服務器架構實現系統300。能夠使用其他適合的架構(諸如單個計算設備)實現系統300。

系統300包括服務器310，諸如網絡服務器。服務器310能夠使用任何適合的計算設備實現。服務器310能夠具有一個或多個處理器312和一個或多個存儲器設備314。服務器310還能夠包括被用于通過網絡340與一個或多個客戶端設備330通信的網絡接口。網絡接口能夠包括用于與一個或多個網絡進行接口連接的任何適合的部件，包括例如發射器、接收器、端口、控制器、天線或其他適合的部件。

一個或多個處理器312能夠包括任何適合的處理設備，諸如微處理器、微控制器、集成電路、邏輯設備或其他適合的處理設備。一個或多個存儲器設備314能夠包括一個或多個計算機可讀介質，包括但不限于非瞬態計算機可讀介質、ram、rom、硬盤驅動器、閃盤驅動器或其他存儲器設備。一個或多個存儲器設備314能夠存儲由一個或多個處理器312可訪問的信息，包括能夠由一個或多個處理器312執行的計算機可讀指令316。指令316能夠是當由一個或多個處理器312執行時使得一個或多個處理器312執行操作的任何指令集。例如，指令316能夠由一個或多個處理器312執行來實現參考圖1所描述的言語合成器106、音頻轉錄器108和/或語音關系確定器110。

如在圖4中所示，一個或多個存儲器設備314還能夠存儲能夠由一個或多個處理器312檢索、操縱、創建或存儲的數據318。數據318能夠包括例如一個或多個言語識別模型、音頻輸出數據、多個測試短語、言語數據和其他數據。數據318能夠被存儲在一個或多個數據庫中。一個或多個數據庫能夠通過高帶寬lan或wan被連接到服務器310，或者還能夠通過網絡340被連接到服務器310。一個或多個數據庫可以分開，使得其被定位在多個場所中。

服務器310能夠通過網絡340與一個或多個客戶端設備330交換數據。雖然在圖4中圖示了兩個客戶端設備310，但是任何數目的客戶端設備330能夠通過網絡340被連接到服務器310。客戶端設備330中的每一個客戶端設備330能夠是任何適合的類型的計算設備，諸如通用計算機、專用計算機、膝上型電腦、臺式電腦、移動設備、導航系統、智能電話、平板電腦、可穿戴計算設備、具有一個或多個處理器的顯示器或其他適合的計算設備。

與服務器310類似，客戶端設備330能夠包括一個或多個處理器332和存儲器334。一個或多個處理器332能夠包括一個或多個中央處理單元(cpu)、專用于高效地呈現圖像或執行其他專業計算的圖形處理單元(gpu)、和/或其他處理設備。存儲器334能夠包括一個或多個計算機可讀介質并且能夠存儲由一個或多個處理器332可訪問的信息，包括能夠由一個或多個332執行的指令336和數據338。例如，存儲器334能夠存儲用于實現用戶界面——諸如在圖2中所描繪的用戶界面120——的指令336。

圖4的客戶端設備330能夠包括用于從用戶提供并且接收信息的各種輸入/輸出設備337，諸如觸摸屏、觸摸板、數據輸入鍵、揚聲器和/或適于語音識別的麥克風。例如，客戶端設備330能夠具有用于展現用戶界面——諸如在圖2中所描繪的用戶界面120——的顯示設備335。

客戶端設備330還能夠包括被用于通過網絡340與一個或多個遠程計算設備(例如，服務器310)通信的網絡接口。網絡接口能夠包括用于與一個或多個網絡進行接口連接的任何適合的部件，包括例如發射器、接收器、端口、控制器、天線或其他適合的部件。

網絡340能夠是任何類型的通信網絡，諸如局域網(例如，內聯網)、廣域網(例如，因特網)、蜂窩網絡或其某些組合。網絡340還能夠包括客戶端設備330與服務器310之間的直接連接。一般而言，能夠使用任何類型的有線和/或無線連接、使用各種通信協議(例如，tcp/ip、http、smtp、ftp)、編碼或格式(例如，html、xml)和/或保護方案(例如，vpn、安全htto、ssl)經由網絡接口執行服務器310與客戶端設備330之間的通信。

在本文中所討論的技術參考服務器、數據庫、軟件應用和其他基于計算機的系統，以及采取的動作和被發送至這種系統和從這種系統發送的信息。本領域的普通技術人員將認識到，基于計算機的系統的固有靈活性允許部件之間和部件之中的任務和功能的各種各樣的可能配置、組合和劃分。例如，可以使用單個服務器或組合工作的多個服務器實現在本文中所討論的服務器過程。數據庫和應用可以被實現在單個系統上或跨多個系統分布。分布式部件可以順序或者并行操作。

雖然已經關于其特定示例實施例描述本主題，但是將理解到本領域的技術人員在獲得前述內容的理解之后可以容易地產生這樣的實施例的變更、變化和等效。因此，本公開的范圍以示例的方式而不是以限制的方式，并且本公開不排除包括對于本領域的普通技術人員而言將容易地明顯的本主題的這種修改、變化和/或添加。

完整全部詳細技術資料下載

當前第1頁1 2

該技術已申請專利。僅供學習研究，如用于商業用途，請聯系技術所有人。
技術研發人員：尼基·錢德魯·拉奧;塞蘇雷什·克里希納庫馬蘭
技術所有人：谷歌有限責任公司
我是此專利的發明人

相關技術

視頻處理方法、裝置、設備、存儲介質及程序產品與流程

針對現有語音轉錄系統無法適應不同視頻內容導致的準確性低問題，提出通過采集視頻播放環境音頻，結合預設語音識別模型生成文本，并根據視頻專業領域調用對應詞匯庫優化轉錄結果，最終將優化后的文本與視頻關...

語音處理方法、裝置及電子設備與流程

語音識別方法、裝置及電子設備與流程

語音識別方法、裝置、設備及存儲介質與流程

異常檢測方法、裝置、電子設備和計算機可讀存儲介質與流程

針對語音識別文本轉錄準確性問題，提出融合語義特征與模型特征的異常檢測方法。通過提取語音識別文本的語義信息、模型輸出特征及語音質量參數，構建異常衡量特征，利用異常檢測模型評估識別效果，從而精準判...

語音轉錄文本聚類方法、裝置、電子設備和存儲介質

一種文本對應關系構建方法及其相關設備與流程

一種將音頻信號實時轉錄為文本的系統和方法與流程

提出一種實時音頻轉錄系統，解決了傳統音頻轉錄存在延遲、無法并行處理多語音信號的問題。通過建立會話接收音頻信號，分割語音段并實時轉錄，同時在轉錄過程中并行接收下一語音信號，實現高效實時處理。系統...

用于語音到文本的轉錄系統的錯誤檢測的制作方法

提出一種語音轉錄錯誤檢測方法，通過將轉錄文本重新合成語音信號并與原始語音進行比較，利用聽覺/視覺界面輔助校對，有效識別轉錄錯誤并提升校對效率。方法包括語音信號濾波匹配、比較信號生成及模式識別，...

網友詢問留言留言:0條

還沒有人留言評論。精彩留言會獲得點贊！

文明留言，給您點贊！

同類技術

相關技術