參考連結:
https://doi.org/10.1038/s41467-021-27655-0
https://www.nature.com/articles/s41467-021-27655-0
論文摘要英翻中:
能系統地設計具有功能性的胜肽在生技產業上和醫療上是相當重要的。然而這樣的設計需要一個基於特定殘基序列模式的搜索引擎來幫助我們在初級序列中定位所需的功能序列,而不管它們的演化保守性如何。現有的數據庫,如蛋白質二級結構數據庫 (PSS) 已不再服務科學社群,而蛋白質二級結構詞典 (DSSP) 及 PHI-BLAST也不提供上述所需之功能。在這個工作中,我們從 PDB 中提取了 170 萬個a螺旋結構並將它們編譯成一個數據庫(治療肽設計數據庫;TP-DB),該數據庫允許查詢複合的序列模式以促進螺旋結構序列的搜尋與識別。我們展示了 TP-DB 如何幫助我們讓一種本用於蛋白純化的特異性抗體重新用於幽門螺桿菌的診斷中。我們還展示了如何使用該數據庫設計一種新的抗菌肽,與模板同源物相比,該肽顯示出更好的白色念珠菌清除率與更低的溶血率。最後,我們展示了 TP-DB 如何建議螺旋肽抑制劑中合適的點突變,以防止能致癌的蛋白質-蛋白質交互作用。
TP-DB 網站入口在 http://dyn.life.nthu.edu.tw/design/
中文簡介:
能駕馭蛋白與胜肽(一種短鏈蛋白)的設計一直是科學家、醫生及藥廠在藥物設計上的夢想。以近兩年來肆虐的新冠病毒為例,不管是治療用的抗體或大家體內已打了兩三劑的疫苗,其共同的目的就是能製備或引發一種特殊的蛋白,我們稱之為抗體,來專一性的辨識病毒的鞘膜蛋白(如,S-protein)以中和掉這些惱人的外來物。這樣的辨識一般需要一些前提:抗體在辨識位的結構及區域化學性質要能跟被辨識的蛋白在幾何上及化學上是互補的。
像這樣的藥物設計要求其實是相當普遍的。舉例來說,我們若知道過多的蛋白質A跟蛋白質B結合時將會幫助癌細胞的持續生長,於是一個可能的用藥策略便是設計一個近似A的蛋白,或近似A在B結合部位的蛋白片段(治療性胜肽)來跟B結合,而這個治療用的胜肽與B的親和力必須要比原來A與B的親和力高。故設計時,這個治療用胜肽必須一方面在結構形狀上長得與A上的B結合位形狀相近,它的氨基酸支鍊的化學組成又必須被改成比原來的A能更強烈地與B結合,來阻斷使病灶加重的A-B複合體的生成。這其中的困難點在於當我們修改此A相似物的氨基酸支鍊使其更強地與B結合時,這些修改可能會造成A相似物的結構產生變化,破壞了A與B 本來在結構幾何上的互補。
作為另一個例子,α螺旋結構的抗菌胜肽是一種有特殊物化性質的短鏈蛋白,可以插入或穿過致病菌的細胞膜,來裂解此細菌,卻無法同樣有效率地溶解人類紅血球及其他細胞的細胞膜。該胜肽的殺菌作用就來自這樣的差別性。透過點突變實驗和分子動力學模擬,我們可找出某已知α螺旋結構的抗菌胜肽上主要是哪些氨基酸來負責插入致病菌的細胞膜,而這些主要氨基酸在序列上的分布常跟其結構有關。例,A, B, C是幫助插入的三個不同的疏水氨基酸,在α螺旋的結構上,A, B, C適當的間隔,如 A d e B f g C (d, e, f, g 為螺旋結構上的其他氨基酸),能幫助其位於螺旋的同一側 (在螺旋上,平均每3.6個氨基酸會轉一圈)。處於同一側的A, B, C可與細菌膜上的磷酯質的不同化學官能基結合,協同性地幫助胜肽插入膜內。若我們此時要改變 d, e, f, g 的電性、極性與大小來增加此α螺旋肽(a-helical peptide)的穿膜效率,這些改變一樣有可能會影響此胜肽保有螺旋狀的這個前提。
與其預測20的4次方個d, e, f, g組合中各自的α螺旋形成機率(自然界氨基酸有20種),我們直接從實驗資料 (從蛋白結構資料庫, PDB) 中提取了 170 萬個a螺旋結構並將它們編譯成一個數據庫(治療肽設計數據庫,簡稱Therapeutic Peptide DataBase, TP-DB)並且設計能查詢特定的序列模式(sequence pattern, 如 A x x B x x C, 其中x可為任何氨基酸)的搜尋引擎,以促進螺旋結構序列的搜尋與識別。這種做法比直接預測一段序列的二級結構有些優勢:我們可選擇符合模式的α螺旋肽序列是從動物體(或人體)而來,這些序列曾在動物體的蛋白中出現過,它們的溶血性與其他毒性可能較低。這些也是結構實驗上曾驗證過為α螺旋的序列。若這些在蛋白中存在的α螺旋肽序列靠近結構的外側,與所屬蛋白的其他氨基酸接觸有限,並且組成氨基酸具有統計上較高的α螺旋發生率,則我們即會推論當該序列單獨存在時,其多半的時間將也以α螺旋的形式存在。
在資料結構上我們以一般程式語言常用的indexing方法, 其中keys用來記載序列的模式(如將“A x x B x x C”記為A2B2C ),而其對應的values是符合模式的序列所屬蛋白ID, 及序列在該蛋白的起迄位置。而為了兼顧搜尋速度及減輕記憶體的負擔,我們設計兩階段的詞典,常駐於記憶體的詞典只能搜到哪些蛋白包含合此模式的序列,搜到後再載入包含序列相對應位置的詞典入記憶體,讓即便是複合式的搜尋(如:搜尋 ”A2/3B2C”將同時搜尋符合A2B2C或A3B2C 的序列)都能在數秒內找到所有符合該模式的序列。
我們透過這篇文章展示了如何使用此資料庫來設計一種新的抗菌α螺旋胜肽,透過分子動力學模擬,我們找出了已知的抗菌胜肽中對膜插入最重要的氨基酸,由此形成的序列模式,我們搜尋TP-DB 找出了11段符合此模式的序列,我們挑選了其中一條帶較高正電且統計上形成螺旋傾向較高的胜肽。Circular Dichroism實驗、抑菌實驗及溶血實驗證明此段胜肽與模板同源物相比,的確有較高的螺旋比例,更好的白色念珠菌清除率及更低的溶血性。最後,我們展示了 TP-DB 如何幫忙建議螺旋肽抑制劑中合適的點突變,以防止能促進肝癌細胞生長的蛋白質-蛋白質交互作用。
透過此先期工作的發表,我們希望TP-DB能繼續拓展到â摺板蛋白的設計,透過資料科學驅動的設計,我們也期待跟我們早期發展的第一原理模擬方法合用 https://patents.google.com/patent/US10810329B2/en ,來更合理的(rationally)設計新型態的抗菌、抗癌胜肽。