本發明涉及計算生物學與人工智能藥物設計,更具體地說,涉及基于片段級局部與全局特征融合的藥物靶點預測方法。
背景技術:
1、藥物-靶標相互作用(drug-target?interaction,?dti)預測是計算機輔助藥物設計中的核心環節,對新藥發現、老藥新用及藥物作用機制闡釋具有至關重要的意義。精準的dti預測能夠顯著縮短藥物研發周期,降低高昂的臨床前實驗成本,并對評估藥物安全性與有效性提供關鍵洞見。
2、隨著生物醫學數據的積累,基于機器學習,尤其是深度學習的方法已成為dti預測的主流。早期方法如deepconv-dti、deepdta等,將藥物和靶標視為整體,分別用一維卷積神經網絡提取特征后簡單拼接進行預測。這類方法雖然實現了端到端學習,但未能顯式建模藥物與靶標之間細粒度的、跨模態的相互作用機制,忽略了dti往往由特定功能基團與局部結合域驅動這一關鍵生物學原理。
3、為了捕捉相互作用,后續研究引入了更復雜的架構。例如,moltrans等方法利用transformer模型構建蛋白質與藥物的交互特征圖。然而,這類方法在構建交互圖時,過度依賴于學習到的子結構相互作用,而可能削弱了藥物和蛋白質自身完整的、具有明確生物學意義的原始特征表達。另一方面,雖然圖神經網絡在表征藥物分子結構方面展現出優勢,但其學習的全結構分子表示可能會引入噪聲,無法有效突出驅動相互作用的關鍵亞結構信息,從而影響模型對關鍵結合模式的辨識能力。
4、綜上所述,現有dti預測方法在如何平衡局部特征與全局表征方面仍面臨挑戰。
技術實現思路
1、針對現有技術中存在的上述問題,本發明提供了基于片段級局部與全局特征融合的藥物靶點預測方法,它結合了卷積特征提取、多頭注意力機制與門控融合策略,構建了一個端到端的dti預測框架,能夠全面挖掘藥物與靶點之間的相互作用。
2、本發明的目的通過以下技術方案實現。
3、本技術的內容部分用于以簡要的形式介紹構思,這些構思將在后面的具體實施方式部分被詳細描述。本技術的內容部分并不旨在標識要求保護的技術方案的關鍵特征或必要特征,也不旨在用于限制所要求的保護的技術方案的范圍。
4、本技術的一些實施例提出了一種基于片段級局部與全局特征融合的藥物靶點預測方法,來解決以上背景技術部分提到的技術問題。
5、作為本技術的第一方面,本技術的一些實施例提供了一種基于片段級局部與全局特征融合的藥物靶點預測方法,包括以下步驟,
6、s1、獲取藥物smiles字符串和蛋白質氨基酸序列;
7、s2、對藥物smiles字符串和蛋白質氨基酸序列分別進行分割,得到藥物結構片段序列和蛋白質功能片段序列;
8、藥物結構片段序用于表征藥物的關鍵化學亞結構,蛋白質功能片段序列用于表征蛋白質的功能區域特征;
9、s3、將藥物結構片段序列和蛋白質功能片段序列輸入至預先訓練好的藥物-靶點相互作用預測模型,得到藥物-靶點對相互作用的預測概率;
10、其中,藥物-靶點相互作用預測模型執行步驟包括:
11、基于藥物結構片段序列和蛋白質功能片段序列分別生成初始特征;
12、通過增強型一維卷積神經網絡模塊,分別從藥物和蛋白質的初始特征中提取局部特征;
13、通過多頭自注意力模塊,分別對藥物和蛋白質的局部特征進行全局依賴建模,得到藥物和蛋白質的全局特征;
14、通過基于門控線性單元的特征融合模塊,對藥物和蛋白質的全局特征進行自適應交互融合,得到融合交互特征;
15、通過分類器,根據融合交互特征并通過sigmoid激活函數,輸出藥物-靶點對相互作用的預測概率。
16、進一步的,利用bcm策略對藥物smiles字符串進行片段分割,得到藥物結構片段序列;利用cfm策略對蛋白質氨基酸序列進行片段分割,得到蛋白質功能片段序列。
17、進一步的,利用bcm策略執行步驟包括:提取藥物smiles字符串中括號內的子串作為支鏈片段;識別并提取分子主鏈和支鏈片段中預定義的官能團作為官能團片段;對分子主鏈應用逆合成分析規則進行切割,得到合成單元片段;
18、將支鏈片段、官能團片段和合成單元片段按順序組合成藥物結構片段序列;
19、利用cfm策略執行步驟包括:依據氨基酸的理化性質將蛋白質氨基酸序列劃分為多個功能類別,并將蛋白質氨基酸序列轉換為類別標簽序列;
20、采用固定大小的滑動窗口對類別標簽序列進行不重疊分割,得到k-gram子序列作為蛋白質功能片段序列。
21、進一步的,特征編碼模塊通過以下步驟生成初始特征矩陣:
22、為藥物結構片段序列和蛋白質功能片段序列分別配置獨立的嵌入層;
23、通過嵌入層將藥物結構片段序列和蛋白質功能片段序列中的每個片段映射為一個固定維度的嵌入向量;
24、將每個序列的所有嵌入向量按其序列順序進行堆疊,分別生成藥物初始特征矩陣和蛋白質初始特征矩陣。
25、進一步的,增強型一維卷積神經網絡模塊包含兩個結構相同、參數獨立的子網絡,分別處理藥物初始特征矩陣和蛋白質初始特征矩陣;
26、每個子網絡包含增強殘差塊和全局池化層;
27、增強殘差塊執行以下操作:
28、通過多個并行的、具有不同感受野的一維卷積層提取多尺度局部特征,并進行拼接;
29、通過一個通道注意力模塊,對拼接后的多尺度局部特征進行通道維度的權重校準;
30、將校準后的特征通過一個一維卷積層進行變換,并通過殘差連接與增強殘差塊的輸入相加,輸出殘差塊特征矩陣;
31、全局池化層對殘差塊特征矩陣進行全局平均池化,輸出局部特征矩陣。
32、進一步的,多頭自注意力模塊通過以下步驟生成全局特征矩陣:
33、將輸入的局部特征矩陣通過線性變換分別生成查詢向量、鍵向量和值向量;
34、將查詢向量、鍵向量和值向量分割為多個注意力頭,并行計算縮放點積注意力,得到每個頭的注意力權重矩陣;
35、對每個注意力頭計算出的注意力權重矩陣應用dropout操作;
36、利用dropout操作后的注意力權重矩陣對值向量進行加權求和,得到每個頭的注意力權重矩陣;
37、將所有注意力頭的注意力權重矩陣進行拼接,并通過線性變換得到全局特征矩陣。
38、進一步的,特征融合模塊通過以下步驟生成融合交互特征向量:
39、對藥物和蛋白質的全局特征矩陣分別進行全局池化,得到藥物全局特征向量和蛋白質全局特征向量;
40、將藥物全局特征向量和蛋白質全局特征向量進行拼接,得到初步融合特征;
41、將初步融合特征通過線性變換層進行通道擴展,得到中間特征;
42、將中間特征輸入門控線性單元,門控線性單元將中間特征分割為兩部分,一部分通過sigmoid函數生成門控權重矩陣,另一部分保留原始信息,將兩部分進行逐元素乘法,輸出融合交互特征向量。
43、進一步的,分類器為多層全連接神經網絡,包括第一全連接層、第二全連接層和輸出層;
44、分類器通過以下步驟處理融合交互特征向量:
45、將融合交互特征向量輸入第一全連接層進行線性變換,得到第一層輸出;
46、對第一層輸出依次應用silu激活函數和dropout操作;
47、將處理后的特征輸入第二全連接層進行線性變換,得到第二層輸出;
48、對第二層輸出應用層歸一化操作,將歸一化后的特征輸入輸出層,并通過sigmoid激活函數輸出預測概率。
49、進一步的,藥物-靶點相互作用預測模型在訓練過程中:
50、采用focal?loss作為損失函數,focal?loss通過引入聚焦參數和平衡因子來調整易分類樣本和難分類樣本的權重;
51、使用adamw優化器更新模型參數,并采用余弦退火策略動態調整學習率,對藥物-靶點相互作用預測模型進行端到端訓練。
52、作為本技術的第二方面,本技術的一些實施例提供了一種電子設備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,處理器執行程序時實現上述基于片段級局部與全局特征融合的藥物靶點預測方法。
53、相比于現有技術,本發明的優點在于:
54、(1)本發明通過提取藥物結構片段序列和蛋白質功能片段序列的局部特征,并建模這些片段之間的全局依賴關系,最后進行自適應融合,輸出預測概率,有效平衡了局部細節和全局上下文信息,解決了現有方法要么忽略局部細節要么缺乏全局視野的缺陷。
55、(2)本發明在片段分割階段,通過bcm策略自動從藥物smiles中提取支鏈、官能團和合成單元片段,通過cfm策略將蛋白質氨基酸按理化性質分類并生成k-gram功能片段,這些片段具有明確的化學或生物學含義,為藥物-靶點相互作用預測模型提供了更清晰、更有解釋性的輸入。
56、(3)本發明在特征融合階段采用門控線性單元(glu),能夠自適應地調控藥物與蛋白質特征之間的交互,通過生成的門控權重自動篩選重要交互特征,抑制冗余信息,使得融合后的特征更聚焦于與相互作用最相關的部分,提高了藥物-靶點相互作用預測模型預測的準確性。
57、(4)本發明在訓練中采用focal?loss損失函數,通過調整易分類樣本和難分類樣本的權重,有效緩解了常見的正負樣本不平衡問題,使藥物-靶點相互作用預測模型在保持整體準確性的同時,對正樣本具有更高的識別靈敏度,從而在召回率等指標上表現更好。
58、(5)本發明僅需smiles字符串和蛋白序列作為輸入,無需復雜特征工程,無需人工設計特征或復雜預處理,更易于在實際藥物研發場景的部署與應用。