聯(lián)系我們
地址:慶市川區(qū)衛(wèi)道(原雙竹鎮(zhèn))
13983250545

信:ycsh638

QQ:469764481
郵箱:ycsh6318@163.com

為什么說想了解AI+合成生物學,必須先搞懂蛋白質(zhì)

發(fā)表時間:2024/05/07 20:45:56  瀏覽次數(shù):2462  
字體大小: 【小】 【中】 【大】
西南漁業(yè)網(wǎng)-豐祥漁業(yè)網(wǎng)秉承:求是務實不誤導不夸大不炒作!水產(chǎn)專業(yè)網(wǎng)站為您提供優(yōu)質(zhì)服務!【鄭重提醒】:本站所有文章,如需轉(zhuǎn)載請注明出處,否則謝絕轉(zhuǎn)載?。≈x謝合~
市場在變,我們的誠信永遠不會變!

關(guān)于合成生物學的探討中,有個問題一直處于模糊狀態(tài):人工智能的切入點到底在哪?

在傳統(tǒng)工業(yè)端,人工智能可以依托現(xiàn)有的工業(yè)路徑循序漸進:AI+技術(shù)可以將生產(chǎn)流程優(yōu)化到極致,AI+平臺則致力于將企業(yè)管理效率推到極致。

然而合成生物學本身就是一門前沿學科,商業(yè)路徑仍在早期探索,市場上仍缺乏一套可復制的工業(yè)化模板,沒有作業(yè)可以抄。

合成生物學實在是一塊大蛋糕。根據(jù)nova one advisor最新數(shù)據(jù),2023 年全球合成生物學市場規(guī)模為 140.9 億美元,預計到 2033 年將達到約 801.7 億美元,在 2024 年至 2033 年的預測期內(nèi)以 18.99% 的復合年增長率增長。

機遇在前,人工智能的利劍握在手中,卻找不到合適的切入點,這種疑問把AI在合成生物領(lǐng)域應用技術(shù)創(chuàng)新困在了原地。

從概念上說,合成生物學的研究,本質(zhì)上是把生物學和工程學相結(jié)合來設計和創(chuàng)建具有新穎功能的生物系統(tǒng)。

這套生物系統(tǒng),我們運用工程學的概念推導,必須經(jīng)由功能各異、形式多樣并且能夠良好實現(xiàn)預期功能的生物元件組成。

常見的生物元件包括催化酶、轉(zhuǎn)錄因子、轉(zhuǎn)運蛋白、蛋白支架等,看似迥異卻有一個共性。

這些功能元件都是蛋白質(zhì)。

蛋白質(zhì)三維結(jié)構(gòu) 一道世紀難題

細胞里中的DNA和RNA記錄了我們的遺傳信息,但真正在細胞里面執(zhí)行功能的是蛋白質(zhì)。

如何執(zhí)行功能?蛋白質(zhì)在細胞里會折疊成固定的三維構(gòu)型,這個三維結(jié)構(gòu)決定了它的功能。

研究蛋白質(zhì)的三維結(jié)構(gòu)的這個過程,被稱為“蛋白質(zhì)結(jié)構(gòu)預測”。

解構(gòu)蛋白質(zhì)就像玩折紙游戲,雖然科學界對蛋白質(zhì)的分子式已經(jīng)很了解,但預測這些組成蛋白質(zhì)的原子最后會形成怎么樣的構(gòu)型仍是個很困難的問題。

在過去 60 多年的歷史中,科學界最開始主要利用名為“合理設計”的方法來解析蛋白質(zhì)。

這種方法需要先根據(jù)蛋白質(zhì)實際3D結(jié)構(gòu)對蛋白質(zhì)進行建模,再識別出可能影響蛋白質(zhì)功能的氨基酸,解析水平嚴重受限于相對稀缺而難于得到的可分辨3D蛋白質(zhì)結(jié)構(gòu)。

為了獲得更多可分辨的3D蛋白質(zhì)結(jié)構(gòu),蛋白質(zhì)結(jié)構(gòu)生物學應運而生。

1959 年,佩魯茨和肯德魯對血紅蛋白和肌紅蛋白進行結(jié)構(gòu)分析,解決了三維空間結(jié)構(gòu),并因此獲得 1962 年諾貝爾化學獎。

之后豪普特曼和卡爾勒建立起應用 X 射線分析的以直接法測定晶體結(jié)構(gòu)的純數(shù)學理論,憑借在晶體研究中劃時代的意義,獲得1985年的諾貝爾化學獎。

下一程技術(shù)創(chuàng)新足足等到了2017 年,亨德森、雅克和約阿希姆三位科學家發(fā)明了冷凍電鏡技術(shù),并被授予諾貝爾化學獎。

在這長達半個多世紀的時間里,傳統(tǒng)方法之下的蛋白質(zhì)合成領(lǐng)域進展非常緩慢,僅解析出約15萬個蛋白質(zhì),只覆蓋了人類蛋白質(zhì)序列中17%的氨基酸殘基。

并且傳統(tǒng)方法下的科研人員需要使用實驗儀器親自測量蛋白質(zhì)的三維結(jié)構(gòu),耗費了大量的時間和成本,甚至還不一定準確。

后AlphaFold2時代 顛覆了什么?

課題沒有變,那么以AlphaFold2為代表的人工智能方法,是如何通過計算技術(shù)把蛋白質(zhì)的三維結(jié)構(gòu)給算出來的?

2016年,被譽為“AI預測蛋白質(zhì)結(jié)構(gòu)第一人”的許錦波博士在CASP12(“蛋白質(zhì)結(jié)構(gòu)預測奧運會”)首次展示了第一代人工智能方法RaptorX。

成功將殘差網(wǎng)絡應用于蛋白質(zhì)殘基接觸圖的預測中,人類對蛋白質(zhì)結(jié)構(gòu)的預測精度被大幅提升。

后來領(lǐng)導DeepMind團隊,設計了AlphaFold人工智能系統(tǒng)的John Jumper博士當時就坐在臺下,這位芝加哥大學生物物理系的博士后,在聽完許錦波的報告后,全力轉(zhuǎn)向深度學習方法,并在兩個月后加入Deepmind。

而2018年,Deepmind帶著AlphaFold首次參賽CASP13,并在 98 名參賽者中名列榜首,準確地從 43 種蛋白質(zhì)中預測出了 25 種蛋白質(zhì)的結(jié)構(gòu)。

“這是人工智能對科學領(lǐng)域最大的一次貢獻,也是人類在 21 世紀取得的最重要的科學突破之一”生物物理學家、西湖大學校長施一公對AlphaFold給予了高度評價。

蛋白質(zhì)預測真正火出圈在2020年,Deepmind升級了AlphaFold2,并在CASP14(“蛋白質(zhì)結(jié)構(gòu)預測奧運會”)中遙遙領(lǐng)先。

AlphaFold2團隊顛覆性地提出使用注意力機制對目標蛋白進行預測,對人類蛋白質(zhì)組58%的氨基酸的結(jié)構(gòu)位置實現(xiàn)了可信預測。

這一成功讓物理的trRosetta結(jié)構(gòu)預測模型時代成為歷史。

AlphaFold2能直接由AI幻覺(AI Hallucinations)產(chǎn)生骨架和相應的序列,隨后使用蛋白質(zhì)設計工具(如ProteinMPNN),就能很快地重新設計產(chǎn)生幻覺的骨干序列。

目前AlphaFold2已經(jīng)預測出了約20000種人類基因組蛋白質(zhì),覆蓋幾乎整個人類蛋白質(zhì)組(98.5%的人類蛋白)。

一石激起千層浪,后AlphaFold2時代浪潮席卷而來,蛋白質(zhì)結(jié)構(gòu)領(lǐng)域多樣化的AI探索如泉水般涌現(xiàn)。

同年Bruno E. Correia團隊基于并行約束邏輯,編程出蛋白質(zhì)拓撲預測模型TopoBuilder,能夠從二級結(jié)構(gòu)分配和拓撲折疊規(guī)則中預測蛋白質(zhì)的α/β-片層和β-片層拓撲

另一方面在商業(yè)市場,全球第一批AI+蛋白質(zhì)企業(yè)登上歷史舞臺。

包括推出蛋白質(zhì)預測和發(fā)現(xiàn)的大語言模型ESM-2的Meta AI公司、推出蛋白質(zhì)預測機器學習模型UniRep的Nabla Bio 公司等。

AI幫助人類破譯了“蛋白質(zhì)密碼”,解答困擾生物學界的世紀難題被解開,下一步,人類想以自己的智慧設計出大自然中不曾存在,具有特殊功能的蛋白質(zhì)。

并期待它具有診斷、治療、乃至治愈疾病的潛力。

從頭設計蛋白質(zhì) 向造物主發(fā)出挑戰(zhàn)

這一夢想并非后AlphaFold2時代的專屬,在沒有計算函數(shù)工具之前,最早在20世紀80年代的科學家就開始了從頭設計蛋白質(zhì)的探索。

2003年,全球首個由科學家從頭開始設計的全新蛋白質(zhì)Top7誕生。

當時該團隊自行開發(fā)的Rosetta算法,首先分析蛋白質(zhì)的生物物理特性,模擬出一個大致的形狀,生成一個新的蛋白質(zhì)骨架,然后開始迭代循環(huán)。

再根據(jù)固定的骨架設計序列,隨后根據(jù)固定的序列調(diào)整骨架,只留下自由能更低的結(jié)果。

但Top7是惰性的,沒有執(zhí)行任何有意義的生物功能。

1997年,全球首個由科學家從頭開始設計的全新蛋白質(zhì)序列FSD-1誕生。

研究團隊利用自然界中存在的骨架結(jié)構(gòu)(Figure 2A) 進行了完整的計算重新設計,算法基于物理化學勢函數(shù)和立體化學約束,篩選了一個組合庫中的1.9 x 10^27種可能的氨基酸序列,設計出的序列名為FSD-1。

該序列與任何已知蛋白質(zhì)序列的相似度非常低,但設計效率太低。

顛覆性變革發(fā)生在2021年,AI蛋白質(zhì)領(lǐng)域的傳奇科學家David Baker受到AlphaFold2的啟發(fā),帶領(lǐng)團隊推出基于深度學習的從頭設計蛋白質(zhì)設計工具RoseTTAFold。

RoseTTAFold系統(tǒng)結(jié)構(gòu)簡介

RoseTTAFold是一個 “三軌” 神經(jīng)網(wǎng)絡,這意味著它同時考慮一維蛋白質(zhì)中的氨基酸序列、二維蛋白質(zhì)的氨基酸如何相互作用以及蛋白質(zhì)可能的三維結(jié)構(gòu)。

不僅能如AlphaFold2般計算數(shù)百種新的蛋白質(zhì)結(jié)構(gòu),還能生成與人類健康直接相關(guān)的蛋白質(zhì)結(jié)構(gòu),包括與非正常脂質(zhì)代謝、炎癥障礙和癌細胞生長相關(guān)的蛋白質(zhì)結(jié)構(gòu)。

2022年,該團隊還推出基于深度學習的從頭設計蛋白質(zhì)序列新工具ProteinMPNN。

該工具能夠在幾秒內(nèi)設計出原創(chuàng)蛋白質(zhì)分子,并在自然蛋白質(zhì)骨架上實現(xiàn)52.4%的序列恢復率,而傳統(tǒng)的 Rosetta方法僅為32%。

ProteinMPNN設計的納米環(huán)形結(jié)構(gòu)

這些成果都表明,人工智能技術(shù)加持下的蛋白質(zhì)設計工具,可以用從前所需時間的很小一部分,構(gòu)建出復雜生物組件的模型。

其技術(shù)飛躍背后,與后AlphaFold2時代涌現(xiàn)出的相關(guān)大語言模型(Large Language Model)緊密相關(guān)。

比較有代表性的包括Noelia Ferruz團隊的ProtGPT2,這是一套用于蛋白質(zhì)設計的深度無監(jiān)督語言模型。

以及Salesforce AI Research 公司的蛋白質(zhì)語言模型ProGen,可以一次性生成百萬序列,而且對酶家族有獨特優(yōu)勢。

到如今,風頭無二的生成式AI讓人類從頭設計蛋白質(zhì)的水平再上新階梯,基于擴散模型的深度學習模型出現(xiàn)。

David Baker團隊發(fā)布的深度學習模型RF Diffusion能夠突破既往諸多蛋白質(zhì)設計限制,可根據(jù)需要“定制化”設計出包含高階對稱結(jié)構(gòu)等以往無法通過AI設計的蛋白質(zhì)。

圖神經(jīng)網(wǎng)絡(Graph Neural Networks)的應用也極大提升了模型的設計精確度。

AI蛋白質(zhì)領(lǐng)域明星企業(yè)Generate Biomedicines開源的生成式人工智能模型Chroma,就建立在擴散模型和圖神經(jīng)網(wǎng)絡的框架上,能夠從頭生成高質(zhì)量、多樣化和創(chuàng)新的蛋白質(zhì)結(jié)構(gòu)。

在相關(guān)論文中研究團隊使用Chroma生成了310個自然界中不存在的蛋白質(zhì),并通過實驗驗證了這些蛋白質(zhì)可以表達、折疊,并具有良好的生物物理特性。

利用人工智能從頭設計蛋白質(zhì)模型的工具誕生,讓工業(yè)界按需設計生物分子成為可能,為人類帶來變革性疫苗和藥物開發(fā)的新時代。

蛋白分子機器 回歸合成生物

了解到AI+合成生物學的切入點“蛋白質(zhì)工具”的歷史變遷與技術(shù)前沿,我們將視野收歸合成生物學。

近年來,以 AI 為核心的蛋白質(zhì)設計已經(jīng)從技術(shù)概念過渡到價值驗證階段。

在實際的生物學和工程學相結(jié)合的生物系統(tǒng)中,我們最主要的目標在于,能不能通過AI+蛋白質(zhì)結(jié)構(gòu)學工具,按需優(yōu)化現(xiàn)有的蛋白質(zhì)或者定制設計蛋白質(zhì)。

比如對特定抗體進行優(yōu)化,使得它能夠跟抗原結(jié)合更好;或者說能不能設計一個自然界不存在的蛋白,用它來制藥或用于其他目的;或者能不能把某一個生物酶優(yōu)化得更好?

未來的合成生物學方向,必然走向?qū)こ淘淼哪K化管理,需要能設計具有任意形狀的復雜結(jié)構(gòu),從而實現(xiàn)即插即用,類似于工業(yè)流水線。

這意味著其中的必要元件——設計出的蛋白質(zhì),能根據(jù)需要調(diào)整其生化參數(shù),響應內(nèi)外刺激,并且能夠與其他功能模塊組合,形成復雜的“蛋白分子機器”。

無論是抗體藥物研發(fā)還是合成生物學的酶工程方向,蛋白分子機器的構(gòu)建是合成生物學從實驗室走向工廠,實現(xiàn)規(guī)?;a(chǎn)的必然要求,其中人工智能是必不可少的助推力。

畢竟,蛋白質(zhì)是人類合成萬物,重塑物質(zhì)世界的基石。

相信不久的將來,我們就能見證人類創(chuàng)造出具有可調(diào)性、可控性和模塊化的蛋白質(zhì),并勇敢駛向合成生物學的星辰大海。

聲明:轉(zhuǎn)載文是出于傳遞更多信息之目的。若有標注錯誤或侵犯了您的合法權(quán)益,請與本網(wǎng)聯(lián)系,我們將及時更正、刪除,謝謝!
“養(yǎng)魚第一線”微信公眾訂閱號

關(guān)"養(yǎng)魚第一線"微信公眾帳號和養(yǎng)魚第一線劉文俊視頻號!將會定期向你推送本號信息!將為你精誠服務!

文章評論
發(fā)表評論:(匿名發(fā)表無需登錄,已登錄用戶可直接發(fā)表。) 登錄狀態(tài): 未登錄,點擊登錄
電腦網(wǎng)址: http://dollarslicenewyork.com 地址:重慶市永川區(qū)衛(wèi)星湖街道  手機網(wǎng)址:http://m.yc6318.cn
重慶市永川區(qū)雙竹漁業(yè)協(xié)會,重慶市永川區(qū)水花魚養(yǎng)殖專業(yè)合作社,重慶吉永水產(chǎn)品養(yǎng)殖股份合作社,重慶市永川區(qū)豐祥漁業(yè)有限公司
本站聯(lián),微信:ycsh638,QQ:469764481,郵箱:ycsh6318@163.com

ICP網(wǎng)備案/許可證號渝ICP備2020014487號-1

渝公網(wǎng)安備50011802010496號

誠信共建聯(lián)盟