一種融入用戶好奇心機制的推薦方法與流程

文檔序號：17723036發布日期：2019-05-22 02:18閱讀：332來源：國知局

技術簡介：
本發明針對傳統推薦系統忽視用戶心理模型導致的多樣性不足問題，提出融合社交沖突度與新穎度的刺激度計算方法，通過馮特曲線建模用戶好奇心機制，并結合波達計數法優化推薦列表，實現準確性與多樣性的平衡。
關鍵詞：用戶好奇心模型,推薦多樣性優化

本發明涉及個性化推薦技術領域，具體涉及一種融入用戶好奇心機制的推薦方法。

背景技術：

隨著互聯網的發展，互聯網每時每刻都在產生大量的數據，而這些數據大多是雜亂無序的，用戶很難直接從這些數據中提取出自己想要的信息，這個問題就是信息超載問題。這是一個全世界所關注的一個問題。經過了多年的研究，從這些信息中挖取重要信息的技術逐漸趨于成熟，其中最重要的一個技術就是個性化推薦技術。個性化推薦技術可以通過用戶的興趣、特點、歷史紀錄，向每個用戶推薦用戶感興趣的信息。個性化推薦技術在各個領域之間都起著關鍵的作用，例如音樂推薦、電影推薦、商品推薦等等。

目前推薦技術中，應用最廣泛的是協同過濾算法，特別是基于矩陣分解的協同過濾算法，這類算法一般可以推薦與用戶歷史記錄相似度比較高的物品，以提高推薦的準確率，所以是一種基于準確率的算法。但是在實際應用場景中，如果給用戶推薦過多與歷史記錄相近的物品，就會使用戶產生抵觸感。所以需要為不同用戶提供更豐富、多樣化的推薦。推薦多樣化同時也意味著準確率的損失，這時候就需要在準確率和多樣性兩者之間權衡。

在心理學上，心理學家認為，好奇心是一個人的行為的驅動力，激起好奇心的刺激源有幾種，包括沖突(conflict)、新穎度(novelty)、不確定性(uncertainty)等等。19世紀70年代，馮特(wundt)提出了刺激度和好奇心的關系，他發現，好奇心并不是隨著刺激度的增長而線性增長的，而是有一個最優點，如果過了這個最優點，隨著刺激度的增長，人類會產生焦慮，好奇心也隨之降低；當小于最優點，隨著刺激度的降低，人類會覺得無聊，好奇心也會下降。所以馮特用一種u形曲線來描述刺激度與好奇心水平的關系，這就稱為馮特曲線。

技術實現要素：

本發明的目的在于克服現有技術的缺點與不足，提供一種融入用戶好奇心機制的推薦方法。這種方法結合社交好奇心和個人好奇心，使用心理學上的沖突(conflict)以及新穎度(novelty)，并且使用馮特曲線，對每一個用戶的好奇心進行建模,以使得推薦提高多樣性。

本發明通過計算用戶歷史物品的刺激度；對歷史刺激度進行統計，曲線擬合；使用矩陣分解的方法，找出相關度較高的m個物品，形成基于準確率的推薦列表；對m個物品進行刺激度計算，并且通過曲線計算好奇心程度，并且進行排序，得到基于好奇心的推薦列表。最后結合基于準確率的列表以及基于好奇心的推薦列表，使用波達計數法對m個物品進行重排序，最后為用戶推薦排名最高的top-n個物品。具體技術方案如下。

一種融入用戶好奇心機制的推薦方法，包括如下步驟：

步驟一：在沒有好友關系的用戶數據中，通過k最近鄰算法，找到隱式好友，在每個用戶的歷史數據中，對隱式或者顯式的好友，使用皮爾遜相關系數計算用戶和好友間的相似度，把每個用戶的好友按照相似度從大到小排序。

步驟二：在歷史數據集中，對于用戶u瀏覽過的物品i，計算其沖突度；根據用戶u與好友的相似度排名列表中，從頭找出瀏覽過物品i并且對物品i進行過評分的用戶，分別找出小于或等于k個打分高于平均分的好友以及小于或等于k個打分低于平均分的好友，再利用下面的沖突度公式計算物品i對用戶u的沖突度

其中指物品i對用戶u的沖突度，和分別表示對物品i給出正面評價(評分大于或等于平均分)和反面評價(評分小于或者等于平均分)的用戶u的好友的集合，集合數量不大于k個用戶，按照相似度從小到大排序。rv,i是用戶v對物品i的打分，pou,i和neu,i分別指用戶u的社交關系(隱式好友或者顯式好友)對于物品i的總的正面和反面評價，通過對好友打分和平均分的差的加權平均來計算，其中pccu,v，pccu,w分別指用戶u和用戶v以及用戶w的皮爾遜相關系數，表示相似度；是最高評分的平均分，一般可以取為總分的一半，例如，如果評分最高評分為5分，則rw,i指用戶w對物品i的評分。

步驟三：對于用戶u歷史數據的物品i，按照時間軸，選取用戶在接觸物品i前所接觸的ρ個物品，然后計算物品i和前ρ個物品的不相似度，不相似度通過皮爾遜相關系數轉化而成，物品i與物品j的不相似度公式所示：

其中，pcci,j指物品i與物品j的皮爾遜相關系數。

新穎度的計算公式如下所示：

其中e^-μz屬于衰減系數，用于模擬人的記憶衰減，越長遠的物品，對新穎度的影響越小；通過調節μ的值把新穎度控制在0到1的范圍里，新穎度是通過對目標物品和ρ個物品的不相似度的加權求和進行計算。

步驟四：通過計算每一個用戶u在歷史數據集中的每一個物品i的新穎度和沖突度的加權求和對每個用戶u的物品i的刺激度siu,i進行計算，計算公式如下：

最終得到歷史數據集中每個物品i對用戶u的歷史刺激度列表，α是權值，用于調整新穎度和沖突度對刺激度的影響。

步驟五：對每個用戶的馮特曲線進行訓練方法如下：對于每個用戶的每一個歷史物品，根據每一個歷史物品新穎度和沖突度，計算每一個歷史物品刺激度siu,i,得到每一個用戶對每個物品的歷史紀錄的刺激度列表，然后進行統計，統計方式如下：把0-1分成50個盒子，給每一個盒子加上編號0，1，2，…，49，把用戶瀏覽過的物品分到50個盒子里面。計算每一個盒子里面的物品的個數，計算公式如下：

其中是用戶u的刺激度列表，count(itvx)指放在第x個盒子的物品個數，x是盒子編號。然后計算每一個盒子中的物品個數占所有物品的比例，即用每個盒子中的物品個數除以所有盒子中的物品總數：

得到每個盒子所對應的頻率cu(si)，并且每個用戶都得到一組映射si->cu(si)，其中si為刺激度，等于盒子的編號乘以0.02，對應的cu(si)是盒子中的物品的占總數的比例。

馮特曲線的函數定義如下面所示，其中和是所需要學習的參數，θr和θp分別設定為20、-20。

由每個用戶得到一個映射，把每個盒子物品的頻率當作是好奇心度，而每個盒子的編號乘以0.02為刺激度，從而得到刺激度到好奇心度的一個目標映射，因此目標函數如下定義：

在給定某個刺激度siu,i的情況下，表示預測的好奇心程度，cu(siu,i)表示真實的好奇心程度，目標是最小化lossu，通過梯度下降最小化目標函數，以得到每個用戶的馮特曲線即好奇心模型。

步驟六：使用現有的基于準確率的方法，例如if-mf(基于隱式反饋的矩陣分解，出自論文collaborativefilteringforimplicitfeedbackdatasets)得到用戶u對所有沒有接觸過的物品i的相關度，相關度的具體過程為：首先，把用戶的歷史訓練數據作為輸入，得到評分矩陣r，其中，r的大小為m*n，r的第u行第i列為用戶u對物品i的評分rui，其余設為0；pui表示用戶u對物品i的偏好，定義如下面pui所示，cui用于表示用戶u對物品i的偏好程度,α是上升率，用于調整cui隨rui變化的變化速度，ε用于調整cui的大小，分數rui越高，則用戶u對物品i的偏好程度越高；損失函數如loss公式所示，其中xu為用戶u的隱空間，yi為物品i的隱空間，均為向量，也是訓練過程所需要學習的對象；相關度模型的訓練過程就是使用交替最小二乘法最小化loss；最后，物品i對用戶u的相關度relui等于用戶u的隱空間xu與物品i的隱空間yi的內積，其中λ屬于正則化參數，用于防止過擬合，表示列向量xu的轉置。

cui＝1+αlog(1+ru,i/ε)

步驟七：把物品按照相關度從大到小的排序，獲得相關度最高的m個物品，得到用戶u的基于準確率的推薦列表然后對這m個物品計算其刺激度，通過訓練后的馮特曲線進行映射，得到用戶對這m個物品的好奇心程度；通過好奇心對物品進行從大到小的排序，得到用戶u的基于好奇心程度的推薦列表對這兩個推薦列表使用波達計數法計數進行排序優化，得到重排序的推薦列表l，最后在推薦列表l中選取分數最高的top-n個物品作為用戶的推薦列表，其中n<m。

進一步的，所述每個用戶數據都可以用(u,i,r,t)元組組成，即用戶u在t時刻為物品i打分r，u和i分別指用戶和物品的集合。|u|＝m，|i|＝n分別表示數據集中用戶和物品的數量。

進一步的，步驟六中得到相關度的具體過程為：通過用現有的基于準確率的方法，如if-mf(基于隱式反饋的矩陣分解)等，使用用戶歷史數據進行訓練。首先，把用戶的歷史訓練數據作為輸入，得到評分矩陣r，其中，r的大小為m*n，r的第u行第i列為用戶u對物品i的評分rui，其余設為0。pui表示用戶u對物品i的偏好，定義如下面pui所示，cui用于表示用戶u對物品i的偏好程度,α是上升率，用于調整cui隨rui變化的變化速度，，ε用于調整cui的大小，分數rui越高，則用戶u對物品i的偏好程度越高。損失函數如loss公式所示，其中xu為用戶u的隱空間，yi為物品i的隱空間，均為向量，訓練過程所需要學習的對象。此模型的訓練過程就是使用最小二乘法最小化loss。最后，物品i對用戶u的相關度relui等于用戶u的隱空間xu與物品i的隱空間yi的內積。

cui＝1+αlog(1+ru,i/ε)

步驟七：基于步驟六計算用戶u沒接觸過的物品的相關度，把物品按照相關度從大到小排序，獲得相關度最高的m個物品，得到用戶u的基于準確率的推薦列表然后利用每個用戶的好奇心模型對這m個物品計算其刺激度，通過訓練后的馮特曲線進行映射，得到用戶對這m個物品的好奇心程度。通過好奇心程度對物品進行從大到小的排序，得到用戶u的基于好奇心程度的推薦列表對這兩個推薦列表使用波達計數法計數進行結合重排序即排序優化，得到重排序的推薦列表l，最后在推薦列表l中選取分數最高的top-n個物品作為用戶的推薦列表，其中n<m。所述波達計數法的具體步驟如下：

分別對推薦列表中的m個物品進行評分，分數由其在列表中的位置決定，公式如下：

和分別表示物品i根據其在和中位置所獲得的評分。

其中t為候選物品的數量，等于上述的m。和是指物品i分別在列表中的位置。然后通過對這兩個分數進行加權求和，得到物品i的分數，最后進行排序，選取分數最高的topn個物品進行推薦，公式如下：

f_scoreu,i是物品i對用戶u的最后評分，β是權值，通過調節β，以調節推薦列表和對最終結果的影響，使結果在多樣性和準確性之間進行權衡。

本發明相對于現有技術具有如下的優點及效果：

1、通過對每個用戶的心理進行建模，結合了兩種刺激度的度量，一種是與社交相關的沖突(conflict)，另一種是與個人相關的新穎度(novelty)，結合了社交和個人的好奇心刺激度。

2、采用了一個新的函數來擬合刺激源和好奇心程度的關系，使用梯度下降方法，因為數據量小，擬合速度比較快。

3、利用好奇心的理論進行推薦，結合準確率相關的推薦方法，使得準確率損失盡可能少的情況下，讓推薦列表的多樣性盡可能高，提供的推薦更個性化。

附圖說明

圖1是融入用戶好奇心機制的推薦方法的框架圖。

具體實施方式

下面結合實施例及附圖對本發明作進一步詳細的描述，但本發明的實施方式不限于此。

一種融入用戶好奇心機制的推薦方法，如圖1所示，包括如下步驟：

每個用戶數據都可以用(u,i,r,t)元組組成，即用戶u在t時刻為物品i打分r，u和i分別指用戶和物品的集合。|u|＝m，|i|＝n分別表示數據集中用戶和物品的數量。

步驟二：在歷史數據集中，對于用戶u的每一個物品i，計算其沖突；根據用戶u與好友的相似度排名從頭找出瀏覽過目標物品并且進行過打分的用戶，分別找出小于或等于k個打分高于平均分的好友以及小于或等于k個打分低于平均分的好友，再利用下面的沖突度公式計算物品i對用戶u的沖突度：

其中指用戶u對物品i的沖突度，和分別表示給出正面評價(評分大于或等于平均值)和反面評價(評分小于平均值)的好友的集合，集合數量不大于k個用戶，按照相似度從小到大排序。rv,i是用戶v對物品i的打分，pou,i和neu,i分別指用戶u的社交關系對于物品i的正面和反面評價，通過對好友打分和平均分的差的加權平均來計算其中pccu,v，pccu,w分別指用戶u和用戶v以及用戶w的皮爾遜相關系數，表示相似度；是指最高評分的平均分，rw,i指用戶w對物品i的評分。

步驟三：對于用戶u歷史數據的某一個物品i，按照時間軸，選取用戶在接觸該物品前所接觸的ρ個物品，然后計算當前物品和前ρ個物品的不相似度，不相似度通過皮爾遜相關系數轉化而成，如下公式所示：

新穎度的計算公式如下所示：

其中e^-μz屬于衰減系數，用于模擬人的記憶衰減，越長遠的物品，對新穎度的影響越小。可以通過調節μ的值把新穎度控制在0到1的范圍里。新穎度是通過對目標物品和ρ個物品的不相似度的加權求和進行計算。

步驟四：通過新穎度和沖突度的加權求和對每個用戶u的物品i的刺激度進行計算，計算公式如下：

最終，對用戶u的歷史訓練數據中瀏覽過的每個物品，計算其刺激度，得到每個用戶u的歷史刺激度列表.

步驟五：對每個用戶的馮特曲線進行訓練，方法如下，于每個用戶的每一個歷史物品，計算根據上述計算步驟，計算其刺激度siu,i,得到每一個用戶對每個物品的歷史紀錄的刺激度列表，然后進行統計，統計方法如下：把0-1分成50份，給每一份編上編號0，1，2，…，49，把刺激度按照0.02的間隔，分到50個盒子里面并對盒子進行編號。計算每一個盒子里面的物品的個數，計算公式如下：

其中是用戶u的刺激度列表，count(itvx)指放在第x個盒子的物品個數，x是編號。然后計算每一個盒子中的物品個數占所有物品個數的比例，即用每個盒子中的物品個數除以所有盒子中的物品總數：

馮特曲線的函數定義如下面所示，其中和是所需要學習的參數，θr和θp可以分別直接設定為20以及-20。

由上面可以得到每個用戶得到一個映射，把每個盒子物品的頻率當作是好奇心度，而每個盒子的編號乘以0.02為刺激度，可以得到刺激度到好奇心度的一個目標映射，因此目標函數如下定義：

在給定某個刺激度si的情況下，表示預測的好奇心程度，cu(siu,i)表示真實的好奇心度，目標是最小化lossu，通過梯度下降方法最小化目標函數，以得到每個用戶的馮特曲線。

步驟一至五對應圖1中的刺激源引起的好奇心模型訓練步驟，所使用的數據是數據層的時序訓練數據，即用戶的歷史數據。其中，curu,i是物品i對用戶u的好奇心程度，由刺激度siu,i通過馮特曲線映射獲得，即

步驟六：通過基于準確率的訓練后的模型，獲得相關度最高的m個物品，訓練步驟如下：首先，把用戶的歷史訓練數據作為輸入，得到評分矩陣r，其中，r的大小為m*n，r的第u行第i列為用戶u對物品i的評分rui，其余設為0。pui表示用戶u對物品i的偏好，定義如下面pui所示，cui用于表示用戶u對物品i的偏好程度,α是上升率，用于調整cui隨rui變化的變化速度，，ε用于調整cui的大小，分數rui越高，則用戶u對物品i的偏好程度越高。損失函數如loss公式所示，其中xu為用戶u的隱空間，yi為物品i的隱空間，均為向量，訓練過程所需要優化的對象。此模型的訓練過程就是使用最小二乘法最小化loss。最后，物品i對用戶u的相關度relui等于用戶u的隱空間xu與物品i的隱空間yi的內積。

cui＝1+αlog(1+ru,i/ε)

步驟七：根據用戶沒有接觸過的物品的相關度，把物品按照相關度從大到小的排序，取出用戶u的相關度最高的m個物品。得到用戶u的基于準確率的推薦列表然后對這m個物品計算其刺激度，通過訓練后的馮特曲線進行映射，得到用戶對這m個物品的好奇心程度。通過好奇心程度對物品進行從大到小的排序，得到用戶u的基于好奇心程度的推薦列表采用波達計數法，把和結合重排序，波達計數法的具體步驟如下描述：

分別對推薦列表中的m個物品進行評分，分數由其在列表中的位置決定，公式如下：

和分別表示物品i根據其在和中位置所獲得的評分。

f_scoreu,i是物品i對用戶u的最后評分，β是權值，通過調節β，以調節推薦列表和對最終結果的影響。

上述實施例為本發明較佳的實施方式，但本發明的實施方式并不受上述實施例的限制，其他的任何未背離本發明的精神實質與原理下所作的改變、修飾、替代、組合、簡化，均應為等效的置換方式，都包含在本發明的保護范圍之內。

完整全部詳細技術資料下載

當前第1頁1 2

該技術已申請專利。僅供學習研究，如用于商業用途，請聯系技術所有人。
技術研發人員：許可;莫俊文;閔華清;蔡毅
技術所有人：華南理工大學
我是此專利的發明人

上一篇：一種基于單體-單體型均衡單元的分層均衡電路及控制方法與流程
下一篇：離子交換膜和電解槽的制作方法

該領域下的技術專家

1、李老師：1.計算力學 2.無損檢測

2、畢老師：機構動力學與控制

3、袁老師：1.計算機視覺 2.無線網絡及物聯網

4、王老師：1.計算機網絡安全 2.計算機仿真技術

5、王老師：1.網絡安全；物聯網安全、大數據安全 2.安全態勢感知、輿情分析和控制 3.區塊鏈及應用

網友詢問留言留言:0條

還沒有人留言評論。精彩留言會獲得點贊！

文明留言，給您點贊！

同類技術