在蛋白質(zhì)設(shè)計中,如何生成具有預(yù)定義功能和特性的蛋白質(zhì)結(jié)構(gòu)一直是一個具有挑戰(zhàn)性的問題,。近日,,由多倫多大學(xué)的研究人員開發(fā)了一種人工智能AI系統(tǒng),可以使用生成擴(kuò)散來創(chuàng)建自然界中沒有的蛋白質(zhì)——這與目前流行的AI圖像創(chuàng)建平臺(如Midjourney,、OpenAI等)背后的技術(shù)相同,。
研究指出,該AI系統(tǒng)將有助于促進(jìn)生殖生物學(xué)領(lǐng)域的發(fā)展,,通過使全新的治療蛋白的設(shè)計和測試更加有效和靈活,,有望加速藥物開發(fā)。
蛋白質(zhì)由氨基酸鏈組成,,氨基酸鏈可以折疊成三維形狀,,決定蛋白質(zhì)的功能。這些形狀經(jīng)過數(shù)十億年的進(jìn)化,,變化多端,,復(fù)雜而且數(shù)量有限。現(xiàn)在,,隨著對現(xiàn)有蛋白質(zhì)折疊方式的進(jìn)一步了解,,研究人員已經(jīng)開始利用人工智能原理設(shè)計自然界中不會產(chǎn)生的折疊模式。
由于很難預(yù)測哪些折疊將是真實的并在蛋白質(zhì)結(jié)構(gòu)中起作用,,研究人員決定通過將基于生物物理學(xué)的蛋白質(zhì)結(jié)構(gòu)表示與圖像生成空間的擴(kuò)散方法相結(jié)合來解決這個問題,。研究人員稱這個新系統(tǒng)為 ProteinSGM,它來自于現(xiàn)有蛋白質(zhì)的大量圖像表示,,這些圖像準(zhǔn)確地編碼了蛋白質(zhì)的結(jié)構(gòu)。
研究人員將這些圖像輸入到生成擴(kuò)散模型中,,該模型逐漸添加噪聲,,直到每個圖像都變成噪聲。該模型跟蹤圖像如何變得更嘈雜,,然后反向運行該過程,,學(xué)習(xí)如何將隨機(jī)像素轉(zhuǎn)換為對應(yīng)于全新蛋白質(zhì)的清晰圖像。
優(yōu)化圖像生成過程的早期階段是創(chuàng)建ProteinSGM的大挑戰(zhàn)之一。使用AI系統(tǒng)的關(guān)鍵之一在于蛋白質(zhì)結(jié)構(gòu)的適當(dāng)?shù)膱D像表示,,此后擴(kuò)散模型就可以學(xué)習(xí)如何準(zhǔn)確地生成新的蛋白質(zhì),。
擴(kuò)散模型,也被稱為基于分?jǐn)?shù)的生成模型(SGMs),,在圖像合成方面顯示出驚人的表現(xiàn),。ProteinSGM是基于圖像的蛋白質(zhì)結(jié)構(gòu)表示開發(fā)的生成模型,可以產(chǎn)生真實的從頭生成的蛋白質(zhì),。
為了測試由ProteinSGM生成的新蛋白質(zhì),,研究人員使用 AlphaFold 2的改進(jìn)版OmegaFold進(jìn)行驗證。通過 OmegaFold的匹配和實驗室的實驗測試,,研究小組證實,,幾乎所有的新序列都能折疊成所需的蛋白質(zhì)結(jié)構(gòu),也就是說,,由AI生成的在自然界任何地方都不存在的全新蛋白質(zhì)折疊得到了驗證,。
研究人員認(rèn)為,基于這項研究,,下一步的研究方向則是通過ProteinSGM進(jìn)行進(jìn)一步開發(fā)具有大治療潛力的抗體和其他的蛋白質(zhì),。這將是一個非常令人興奮的研究和創(chuàng)新領(lǐng)域。