人工智能AlphaFold+蛋白质De novo sequencing,蛋白质结

日期:2023-03-29 15:57

浏览量:70
蛋白质的3D形状或结构决定了它在细胞中的功能,大多数药物都是利用结构信息而设计的。传统上,科学家利用X射线晶体学和冷冻电子显微镜来确定蛋白质结构,耗时且昂贵。此外,从氨基酸序列预测蛋白质结构是计算生物学领域最具挑战性的问题之一,而AlphaFold的出现极大改善了此前的窘境。
AlphaFold是由谷歌旗下人工智能公司Deep Mind创建并推出的网络,可应用于蛋白质结构预测,于2021年7月推出的AlphaFold 2在蛋白质结构预测关键评估竞赛(CASP)中占据主导地位,强大的预测能力更是掀起了一股“AlphaFold 折叠热”。AlphaFold最初仅可预测35万种蛋白质结构,物种包含人类、老鼠和其他19种被广泛研究的生物,现今AlphaFold可预测100万种物种的2亿多种蛋白质的结构,几乎覆盖了地球上所有的蛋白质。这些蛋白质数据可在Deep Mind与欧洲分子生物学实验室的欧洲生物信息研究所(EMBL-EBI)共创的数据库中找到,为蛋白质组学研究提供了丰富的资源。
 
蛋白质组知识来源[1]
AlphaFold通过以往在实验室取得的成果输入对蛋白质结构进行预测,预测结果将根据与PDB(Protein Data Bank)数据库比对来划分。日前,EMBL-EBI表示,超过2.14亿的预测中约有35%被认为是高度准确,这意味着它们和实验确定的结构一致性高,另有45%被认为在许多应用中是足够准确的[2]。
 
AlphaFold蛋白质结构预测结果[1]
依托AlphaFold的预测,伦敦大学学院计算生物学家Christine Orengo团队对EMBL-EBI数据库进行搜索以确定新的蛋白质种类,已确定了上百种,且数目还在不断增大,同时尝试搜索海洋和废水中提取物的DNA数据库,据此识别出可降解塑料的酶。哈佛大学进化生物学家Sergey Ovchinnikov表示,将任何蛋白质编码基因序列转化为可靠结构的能力对于进化研究来说是特别强大的,通过比较基因序列来确定生物进化亲缘,对于远亲基因,因序列已经发生了很大变化,可能无法发现进化亲缘,但是通过比较蛋白质结构,研究人员可能会发现,原因在于蛋白质结构的变化比基因序列慢。另外,AlphaFold也被用于新药研发,其预测的结构不能显示一个结构是否对以后的药物筛选有用,但后续的补充实验会在一定程度上缩短实验进程;也有研究人员尝试利用AlphaFold来设计出新的蛋白质。
AlphaFold强大的预测能力使其成为炙手可热的新星,但在一些方面具有局限性,如无法预测新突变带来的后果,因为没有与进化相关的序列可以检测;无法预测蛋白质相互作用以及结构异质的蛋白质结构等[3]。目前,AlphaFold团队也在针对类似以上问题寻求新的解决方案,我们期待AlphaFold迭代给我们带来的新惊喜。
最后,牟合蛋白科技有限公司团队首发的蛋白质De novo sequencing,即蛋白质从头测序(也称全新蛋白测序),其不依赖任何蛋白质数据库,不遗漏可能肽段、点突变及未知修饰的特点突破了传统质谱测序的局限,测序覆盖率高,可与AlphaFold完美结合,对未知蛋白作出结构预测,打开蛋白质结构预测的新世界。



参考文献:
[1]Callaway E. What's next for AlphaFold and the AI protein-folding revolution. Nature. 2022 Apr;604(7905):234-238.
[2]Callaway E. 'The entire protein universe': AI predicts shape of nearly every known protein. Nature. 2022 Aug;608(7921):15-16.
[3]Chakravarty D, Porter LL. AlphaFold2 fails to predict protein fold switching. Protein Sci. 2022 Jun;31(6):e4353.