本發明屬于人機交互與計算機軟件,尤其涉及基于雙智能體實時通信的語音控制瀏覽器操作方法及系統。
背景技術:
1、本部分的陳述僅僅是提供了與本發明相關的背景技術信息,不必然構成在先技術。
2、隨著人工智能技術的飛速發展,人機交互模式正經歷深刻變革。其中,語音交互因其自然、便捷的特性,成為提升用戶體驗的重要方向。同時,瀏覽器作為互聯網最主要的入口,其自動化操作技術也日益成熟。可見,實現從用戶自然語言指令到瀏覽器復雜操作的端到端自動化,已成為該領域亟待突破的關鍵技術。
3、目前,現在技術主要是基于ai驅動的瀏覽器自動化框架,該技術允許通過自然語言、代理指令控制瀏覽器執行任務(如填表、抓取、滾動、登錄),通過一種視覺感知與區域選框機制來實現操作,主要通過playwright截取當前網頁截圖,并結合頁面結構信息生成一個視覺語義映射圖,隨后llm根據用戶意圖(如點擊登錄按鈕)在頁面截圖“畫出”操作框,標出目標區域,瀏覽器自動化層根據框選的坐標執行具體動作(點擊、滾動、輸入),并反饋結果截圖共模型二次判斷,模型會對執行后的頁面再次分析,若任務未完成,會自動修正操作路徑,實現閉環交互。目前處于快速更新狀態,提供表單填充、雜貨購物清單、pc配件選購等場景示例。
4、此外,主流的智能語音助手(如siri、alexa等)其技術架構通常包含四個核心模塊:語音識別模塊(asr,如whisper、wenet),負責將用戶語音轉換為文本;語音理解模塊(nlu),負責對文本進行語義解析,提取用戶意圖,或直接交由大語言模型進行推理;對話管理模塊,負責管理多輪對話狀態與上下文;語音合成模塊(tts,如vits、edge-tts),負責將系統回復轉換為語音。該類技術經歷了從早期的關鍵詞識別與規則匹配,到基于深度學習的語義理解,再到目前與大語言模型(llm)融合的發展階段,使其在知識問答、情感對話和簡單任務執行方面表現卓越。
5、盡管上述技術取得了顯著進展,但仍然存在一定的不足:
6、(1)現有的智能語音助手系統主要局限于簡單的信息問答和設備基礎控制,缺乏將復雜、連續的自然語言指令實時、準確地轉換為一系列瀏覽器自動化操作的能力。
7、(2)現有的瀏覽器自動化工具(如selenium、playwright)雖功能強大,但嚴重依賴預先編寫的腳本,缺乏與用戶進行實時、智能的多輪語音交互能力。
8、(3)現有的多智能體系統多為獨立運行,缺乏實時協同機制,導致雙智能體間無法快速響應彼此的狀態變化,難以實現任務執行的協同與即時干預。
9、(4)在執行長時間或復雜的瀏覽器任務時,無法響應語音打斷請求,瀏覽器會話無法在不同運行實例間保持連續狀態;同時,瀏覽器會話通常基于簡單的cookie或本地存儲,無法完整保存瀏覽器狀態,會話連續性差,無法在不同運行實例間保持連續狀態。
技術實現思路
1、為克服上述現有技術的不足,本發明提供了基于雙智能體實時通信的語音控制瀏覽器操作方法及系統,通過語音智能體與瀏覽器智能體的高效協同,結合實時打斷與狀態持久化機制,實現了從自然語言指令到復雜瀏覽器操作的全流程、可交互、連續性的智能自動化。
2、為實現上述目的,本發明的一個或多個實施例提供了如下技術方案:
3、本發明的第一個方面提供了基于雙智能體實時通信的語音控制瀏覽器操作方法,由通過通信橋接器實時連接的語音智能體和瀏覽器智能體協同執行,包括:
4、響應用戶的語音輸入操作,前端界面獲取音頻數據并通過第一實時通信鏈路發送至語音智能體;
5、語音智能體對音頻數據進行識別,得到用戶指令文本;
6、語音智能體通過大語言模型對用戶指令文本進行解析,生成結構化任務,并通過通信橋接器將結構化任務分發至瀏覽器智能體;
7、瀏覽器智能體接收結構化任務,并根據結構化任務驅動瀏覽器執行相應的自動化操作,其中,在瀏覽器操作過程中或完成后,瀏覽器智能體通過通信橋接器,將執行狀態或結果信息反饋至語音智能體,并由語音智能體向用戶進行語音播報;
8、在語音智能體進行語音播報或瀏覽器智能體執行結構化任務的過程中,若檢測到新的用戶語音輸入,則觸發打斷機制,其中,打斷機制至少包括:立即停止當前語音播報、通過通信橋接器向瀏覽器智能體發送打斷信號以中斷當前執行的結構化任務。
9、作為一種實施方式,還包括會話持久化,具體過程為:
10、在瀏覽器智能體執行結構化任務的過程中,持續監控瀏覽器會話的狀態變化;
11、將瀏覽器會話的狀態進行序列化并持久化保存;
12、當會話中斷后需要恢復時,加載保存的已序列化的狀態數據,并根據已序列化的狀態數據重建瀏覽器會話;
13、通過通信橋接器通知語音智能體恢復對話。
14、作為一種實施方式,得到用戶指令文本的具體過程包括:
15、前端界面采用基于超文本標記語言模塊化架構,并采用狀態機進行設計,觸發語音輸入操作,調用設備音頻接口進行音頻數據采集;
16、對采集的音頻數據進行預處理,其中,預處理至少包括格式標準化與封裝;
17、通過第一實時通信鏈路將預處理后的音頻數據以流式和分塊方式,發送至語音智能體;
18、語音智能體通過websocket服務端接收到預處理后的音頻數據,并存儲到臨時音頻緩沖區,直至檢測到語音輸入結束;
19、當檢測到語音輸入結束時,從臨時音頻緩沖區提取音頻數據,并通過語音識別模型進行識別,將音頻數據轉換為用戶指令文本。
20、作為一種實施方式,語音智能體通過大語言模型對用戶指令文本進行解析,生成結構化任務,并通過通信橋接器將結構化任務分發至瀏覽器智能體,具體過程包括:
21、語音智能體將用戶指令文本輸入至大語言模型中,采用意圖解析算法進行語義理解與意圖解析;
22、基于意圖解析結果,將用戶指令轉換為結構化任務,其中,結構化任務采用預定義的格式,并包含操作類型、操作目標、操作參數及執行條件在內的關鍵字段;
23、語音智能體通過通信橋接器將結構化任務分發至瀏覽器智能體,其中,采用消息隊列模式處理任務分發。
24、作為一種實施方式,瀏覽器智能體接收結構化任務,并根據結構化任務驅動瀏覽器執行相應的自動化操作,包括用戶詢問操作,具體過程為:
25、當瀏覽器智能體在執行結構化任務過程中,遇到需要用戶確認的情況時,暫停執行并生成確認請求;
26、通過通信橋連接將確認請求發送至語音智能體;
27、語音智能體將接收的確認請求轉換為語音向用戶播報,并進入等待應答狀態。
28、作為一種實施方式,瀏覽器智能體接收結構化任務,并根據結構化任務驅動瀏覽器執行相應的自動化操作,還包括用戶回答和結果反饋,具體過程為:
29、用戶對確認請求進行回答時,采集用戶的語音回答并進行識別;
30、對識別后的用戶語音回答進行語義解析,得到用戶語音回答解析結果;
31、瀏覽器智能體通過通信橋接器接收用戶語音回答解析結果,并繼續執行被暫停的結構化任務;
32、當瀏覽器智能體完成結構化任務對應的操作后,生成任務執行結果信息,并通過通信橋接器發送至語音智能體;
33、語音智能體將任務執行結果信息轉換為語音播報內容,并驅動前端界面向用戶進行語音播放。
34、作為一種實施方式,在語音智能體進行語音播報或瀏覽器智能體執行結構化任務的過程中,若檢測到新的用戶語音輸入,則觸發打斷機制,具體過程包括:
35、前端界面實時監測音頻輸入信號,當檢測到符合預設條件的語音活動開始時,立即生成打斷觸發事件,并發送至語音智能體;
36、語音智能體通過第一實時通信鏈路接收到打斷觸發事件后,將全局打斷標志設置為有效狀態,并同步通過通信橋接器向瀏覽器智能體發送打斷信號;
37、瀏覽器智能體在接收到打斷信號后,中斷當前正在執行的任務,并清理與結構化任務相關的臨時狀態;
38、瀏覽器智能體在中斷任務后,通過通信橋接器向語音智能體返回中斷確認信息;
39、語音智能體根據接收到的中斷確認信息更新狀態,并停止正在進行的語音播報。
40、作為一種實施方式,通信橋接器采用異步消息隊列機制實現瀏覽器智能體和語音智能體之間的雙向異步通信,消息隊列用于管理任務請求、狀態反饋、詢問與回答以及打斷信號的傳遞,并為每一條消息分配唯一標識以支持任務狀態跟蹤、執行進度監控、錯誤處理及重試機制。
41、本發明的第二個方面提供了基于雙智能體實時通信的語音控制瀏覽器操作系統,包括:
42、語音輸入模塊,用于響應用戶的語音輸入操作,前端界面獲取音頻數據并通過第一實時通信鏈路發送至語音智能體;
43、語音識別模塊,用于語音智能體對音頻數據進行識別,得到用戶指令文本;
44、任務解析與分發模塊,用于語音智能體通過大語言模型對用戶指令文本進行解析,生成結構化任務,并通過通信橋接器將結構化任務分發至瀏覽器智能體;
45、瀏覽器操作與反饋模塊,用于瀏覽器智能體接收結構化任務,并根據結構化任務驅動瀏覽器執行相應的自動化操作,其中,在瀏覽器操作過程中或完成后,瀏覽器智能體通過通信橋接器,將執行狀態或結果信息反饋至語音智能體,并由語音智能體向用戶進行語音播報;
46、實時打斷模塊,用于在語音智能體進行語音播報或瀏覽器智能體執行結構化任務的過程中,若檢測到新的用戶語音輸入,則觸發打斷機制,其中,打斷機制至少包括:立即停止當前語音播報、通過通信橋接器向瀏覽器智能體發送打斷信號以中斷當前執行的結構化任務。
47、作為一種實施方式,還包括會話持久管理模塊,用于在瀏覽器智能體執行結構化任務的過程中,持續監控瀏覽器會話的狀態變化;將瀏覽器會話的狀態進行序列化并持久化保存;當會話中斷后需要恢復時,加載保存的已序列化的狀態數據,并根據已序列化的狀態數據重建瀏覽器會話;通過通信橋接器通知語音智能體恢復對話。
48、以上一個或多個技術方案存在以下有益效果:
49、本實施例,通過構建語音智能體-通信橋接器-瀏覽器智能體的協同架構,并集成大語言模型進行端到端的任務解析與規劃,實現了將復雜、連續的自然語言指令(如登錄我的郵箱,找到上周張三的郵件,并回復已收到)實時、準確地分解并轉換為一系列可執行的瀏覽器自動化操作序列。從而,擴展了語音交互系統的能力邊界,使其從簡單問答升級為能夠執行復雜工作流的生產力工具,解決了現有智能語音助手無法驅動復雜瀏覽器操作的問題,實現了從自然語言到復雜瀏覽器操作的端到端自動化操作。
50、本實施例中,將瀏覽器智能體與具備多輪對話管理能力的語音智能體深度耦合。瀏覽器智能體在執行中遇到模糊或需確認的情形時,可實時通過通信橋接器發起詢問,由語音智能體與用戶進行自然語言交互以澄清意圖,并根據用戶回答動態調整執行路徑。從而,實現自動化工具實時協商與動態調整的智能化,使其從靜態腳本執行進化為可交互的智能代理,解決了現有瀏覽器自動化工具缺乏智能交互能力的問題。
51、本實施例中,設計了專用的、基于異步消息隊列與websocket雙通道的實時通信橋接器,構建雙智能體間的神經中樞,該橋接器不僅負責任務與狀態的低延遲同步,更能將一方的狀態變化(如用戶開始說話的打斷信號)即時廣播至另一方。從而實現了雙智能體間毫秒級的狀態感知與響應,確保了任務執行、用戶干預與系統反饋之間的高度協同與一致性。
52、本實施例中,采用全局實時打斷機制與瀏覽器會話深度持久化技術。一方面,系統通過前端語音活動監測與全局打斷標志,可在任何時刻響應用戶中斷,并清理任務狀態。另一方面,瀏覽器智能體能將會話的完整狀態(包括dom結構、javascript上下文、網絡緩存等)進行序列化存儲與精準恢復,既保障了交互的自主性與流暢性,又實現了復雜任務跨時間、跨實例的無縫續接,極大提升了長時間、多步驟操作的可靠性與用戶體驗。
53、本發明附加方面的優點將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過本發明的實踐了解到。