iProteome新年巨制-秦钧|透过水晶球看2019年的蛋白

日期:2019-01-10 11:39

浏览量:77
注:本文转载自公众号iProteome,原文作者为秦钧教授
编者按:2019的钟声刚刚敲响,回望2018,可以说是蛋白质组领域蓬勃发展的一年。据不完全统计,2018年Nature、Science和Cell上共发表蛋白组学相关的文章超过10篇。蛋白组学正从小学科向着大科学领域迈进。2019开年之际,我们请来了国家蛋白科学中心·北京的秦钧教授,为我们拨开迷雾,畅想一下2019的蛋白组学,掌声有请秦钧教授(雷鸣般的掌声)。
 
       历经20多年的成长,特别是最近5年的快速发展,奋战在一线的蛋白组人开始感到蛋白组学正发生着变革性(transformative)的变化。在2018年,我们看到了一线曙光——也许蛋白组学可以直接解决一些人类健康的难题。
       蛋白组人经过20多年的努力,在质谱技术、样本制备流程、生物信息学分析思路上的不断迭代更新,现在终于到了这个时刻:只测蛋白(可能甚至不需要任何基因突变的信息),就有可能回答肿瘤病人最关心的二个问题,手术后,1.我能活多长?会复发吗?2.我需不需要化疗,应该用什么样的化疗方案?
       我们可以回答这两个问题,是基于如下的积累:现在蛋白组人能在有限的时间内完成百例以上临床肿瘤样品的质谱检测,通过生物信息学分析可以描绘出肿瘤蛋白组的地形图(proteomics landscape),从而实现肿瘤的分子分型。回顾性研究发现不同的分子亚型和病人的预后和化疗方案的选择都有显著的关联:同是胃癌,有的亚型预后好,有的预后一般但对化疗敏感,但有的亚型预后差对化疗也不敏感。胃癌分子分型的本质其实是在蛋白变化的层面上来界定胃癌的种类。尽管都是胃癌,不同亚型的胃癌其实在蛋白的层面是不同的疾病,因此就会有不同的预后,治疗的方案也就需要有的放矢。
       有了肿瘤蛋白组变化的地形图在手,我们就可以分析出不同亚型肿瘤信号通路的变化,这不但在肿瘤基础研究上意义重大,在肿瘤临床治疗上也意义重大,因为我们可以发现每一个病人靶向治疗的蛋白靶点,从而使个性化治疗成为可能。3-5年以后,人们也许会记住2018年是蛋白组学驱动的精准医疗的元年。
那么2019年的蛋白组学会是个什么样子呢?
壹  应用到医院的临床蛋白组学
       2018年树立了临床蛋白组学的路标(road map),坚定了蛋白组人的信心,有部分人开始相信蛋白组解决复杂疾病,比如肿瘤,有着比基因组更大的优势。2019-2020年会有一批描绘各种肿瘤蛋白组变化地形图(proteomics landscape),实现不同肿瘤的分子分型的工作面世,而且很多会是中国团队的工作。这些工作将会巩固蛋白组学驱动的精准医疗的基础,吸引更多的团队投入这项重要的工作。
       有了这些基础,2019年会开始尝试应用到医院的临床蛋白组学。为什么要提出应用到医院的临床蛋白组学这样的一个概念?因为现在绘制肿瘤蛋白组地形图的目的和方法和应用到医院的临床蛋白组学的目的和方法还是有极大的差别的。我们绘制肿瘤蛋白组地形图用的是手术切下来的冷冻样品,科研的目的更多的是在蛋白的层面理解肿瘤,更偏向基础研究;而应用到医院的临床蛋白组学,科研的第一目的是为临床医生提供为病人诊断治疗的工具和方法,让病人获益。应用到医院的临床蛋白组学必须有一个原则:不能再给临床医生添任何麻烦。医院常用的是石蜡切片(FFPE),这就要求我们必须用FFPE的大病理样品或者活检的样品作为分析的材料;同时,蛋白组学方法也必须改进。现在的方法效率还不高、还不稳定,用来建立单个肿瘤(比如,胃癌)预测模型的样品数还不够多。最终应用到医院的临床蛋白组学可能需要质谱检测在15-30分钟之内完成,需要利用来自多中心的样品来建模,可能需要500-1000例的样品以便尽可能地覆盖胃癌的各种类型、包容各中心制作FFPE的不同特点。生物信息学的分析也必须稳定,快速。总之,从拿到样品到出实验/检测报告,应该在2-3天内完成。稳定、快速、全面、准确可能是应用到医院的临床蛋白组学的特点,这和蛋白组学的基础研究的特点还是不一样的。
       应用到医院的临床蛋白组学是一个很高的目标。现在最难做的,自然是那个第一个实现这个目标的项目,这也是远见和创新的所在。
       那怎么才有可能实现这个目标呢?
       很明显依赖一个实验室是无法完成的。这个项目需要多中心的肿瘤科和病理科医生的参与,需要单中心或者多中心的蛋白组学研究者,以及大数据分析人员的紧密合作。样本的采集和处理,质谱数据的采集和分析,在大数据框架下的生物信息学分析和临床资料的采集和整理都必须利用同样的流程。这基本要求上述工作人员在一个实体或虚拟的临床蛋白组学中心中按照统一的SOP完成这个任务。
       那对参与这个项目的人员会有什么样的要求呢?参与这个项目的人员,基本上需要有临床、组学、生物信息学和生物研究的多重训练。对项目的领导者和组织者则有着更高的要求,除了科研、管理、沟通、协调和获取资源的能力以外,领导者的情怀和人品在项目的执行中将会起到决定性的作用。这个项目的带头人,如果没有一颗“悬壶济世”的善心是不可能把这个项目做到极致的。极致的标准,就是病人能够获益。在项目的执行中,一定会遇到各种困难,不但有科研上的问题,也会有伦理的问题,监管部门如何监管的问题。这些都需要项目负责人去沟通、协调和克服。做项目的方法,有些能“摸着石头过河“,有些会是“改革深水区”的问题,必须得用创新的方法,来解决这些困难
       应用到医院的临床蛋白组学是一个特殊的项目,和PI驱动的其他项目有很多不同。从科研绩效的角度讲,对个人会是产出投入比非常小的,对参加项目的每一个人产生的个人效益将会是微乎其微的,但其社会效益将会是巨大的。对每一个人的最大奖励,可能会是妙不可言的心理满足,那种”我用自己的发现让病人得益“的美妙心情将会陪伴每个人的一生。罗嗦了这么多,其实就是想告诉大家,应用到医院的临床蛋白组学是一个非常难的项目,除了科研上的难度和创新,还会有很多心灵上的撞击。我感觉这是一个“白求恩“式的项目,需要参与这个项目的人有一颗做一位高尚的人,成为一位有利于人民的人的红心。
       历史将会证明需要有理想有情怀的科学家和医生才能把临床蛋白组学推到医院让病人获益。
贰  基础蛋白质组学
       现在的蛋白质组的技术己经足够好了,可以用来解决各类国计民生的实际问题。基础蛋白组学技术本身在2019年虽然看不到会发生变革性(transformative)变化的痕迹,反而是大家一直纠结的某些问题很快就会有比较清晰的答案。
       大家关心的测蛋白组的深度/覆盖率,是要测1万个蛋白,还是2千个蛋白,其实本身就是个伪命题。要测多少个蛋白,完全是项目要回答的问题决定的。大家要明白有些项目测2千个蛋白就能解决问题,不是每一个项目都需要蛋白组的高覆盖。
       大家纠结的是要做DDA还是DIA/SWATH,也根本不是一个问题。特定的科研项目再加上实验室的积累会决定你应该采取哪一个方法,不能说DDA和DIA说谁优谁劣。同样的,是要做有标定量还是无标定量,也是由项目和实验室的积累决定的,难讲哪一个更好,大家也没有必要去特意鼓吹、推广哪一种方法。比如在我们实验室,我们只做无标定量的DDA,当然有些时候,我们也会做点PRM。我们这样做,是因为这个方法可以回答几乎所有我们感兴趣的问题。
       蛋白ID包括PTM检测的搜库方法,在OPENSEARCH和pFIND-3.0的框架下也已经足够好了,可以解决99%的问题了。剩下1%的问题,留给真正的专家去思考、解决吧。倒是怎样验证ID,PTM的对错是个没有解决的大问题,现在主流的FDR算法,其实在底层逻辑上是经不起推敲的,但大家好像也不是太care about这个问题。也许因为是主流的算法,大家也就跟着随波逐流了。蛋白定量,怎样定准,这是个大问题,现在的方法有许多问题,期待以后能解决这个难题。解决蛋白质定量不准确的问题,可能需要新的理论和逻辑体系,不能只是修改、完善一下现在的主流做法。这会是一个创新的领域,但极具难度。我也看不出来2019年有解决这个问题的可能,期待未来吧。
       当然,样本制备的问题永远是在最上游的那个问题,几乎有无限的方法,也有无限的想像和上升空间,值得关住,值得下大力气去开发。可惜在这个方向上用心的人还不多。
       2019年或许会有人尝试一个蛋白组学质谱检测的标准。这个标准会包括标准品实物,样本测量的质谱方法,更重要的是蛋白定量的方法和算法。有了这个标准,并且按照这个标准执行,可以在一定程度上做到,同一个标准品在不同的仪器上(比如QE-plus, QE-HF, FUSION, LUMOS, timsPro, 6600,等等)可以测出相同的结果。这个标准也会帮助大家检测自己的仪器是否处在正常的工作状态,可以比较不同平台仪器的工作情况。期待2019年开始,蛋白组人可以逐渐解决那个尴尬的问题——不同的平台测同一个样品,得到的结果不一样。正确的检测方法,得到的结果应该都是平台、仪器相对独立的。
       2019年让我最期待的是timsTOF-pro和FAMES-LUMOS-Orbitrap这两款仪器。增加了ion mobility的这两款仪器,让质谱进入了一个新的维度,开始看见过去看不见的东西。这会让蛋白组学更接地气,会加快蛋白质组学解决国计民生科学问题的速度。更值得期待是,timsTOF-Pro能不能打破Orbitrap在蛋白组学领域一家独大的局面。Orbitrap是一台伟大的仪器,但长期垄断一个领域,令人窒息,也不利于领域的发展。
       上述两款仪器,如果能与合适的色谱方法连用,也许会释放巨大的能量。大家需要思考的是合适的色谱方法会是个什么样子?我的感觉,肯定不是更长、更细的柱子,也不会是更低的色谱流速。2019年,大家会发现色谱越来越重要。谁的色谱分辨率高、速度又快、还稳定,谁就会对基础蛋白组学做出最大的贡献。
       2019年基础蛋白组学真正需要解决的问题是速度。怎样在最短的时间内测一个蛋白质组。期待产生能解决实际问题的15-30分钟的蛋白质组学方法。我感觉这个是有可能在2019年实现的。快速蛋白质组学的出现,就会降低组学检测的成本,蛋白组学驱动的精准医疗就会成为可能,蛋白质组学的领域就会进入蓬勃发展的轨迹。
       Native/crosslinking MS,top down MS, PPI,各种各样的新技术,新方法都会层出不穷地产生,然而不好预测。呼唤能够测量蛋白质活性的组学方法,期待糖组学能变革糖生物学,把“甜蜜”带入生物研究。
       大规模数据采集,小规模数据分析,描绘各种地形图或鸟瞰图的套路在2019年将会发现开始进入寒冬。除非在数据中发现了石破天惊的秘密,这种描述性的工作,开始难以满足人们的好奇心。以前这一类工作的创新点在实验本身——人类第一次有这个能力做这样的实验。现在则需要更深层次的数据分析、挖掘,产生新的知识点,提出新的假设,并用另外的实验来验证。验证将变的越来越重要,以后可能会成为不可或缺的部分。也许到了回归初心的时候,所有生物实验都是为了研究功能,蛋白质组学必须向功能进军。
       向功能进军的第一步,一定是从实验的选材开始。过去只用肿瘤细胞系做实验,现在测了肿瘤组织,测了正常组织,测了人的样品和小鼠的样品,终于知道了它们的差别是蛮大的。从2019年开始,当用细胞系做实验时,一定要问自己,这个适合吗?做肿瘤有关的课题,必须得从分析肿瘤开始。先在细胞系里筛,然后到肿瘤组织中去验证,是一个本末倒置且危险的操作,是产生各种artifact的温床。比如做肿瘤免疫治疗课题,就不能用裸鼠的PDX模型,裸鼠荷瘤的实验和细胞系的结果也没有太大的区别。做组学测量,这些问题都要考虑好。我个人认为,除非做分子机制,蛋白质组学应该远离肿瘤细胞系。
       2019年要远离两个坑。
       第一个坑是多组学整合(integration)。整合基因组,转录组,蛋白组的愿望很好,但也就是个美好的愿望。基因,RNA,蛋白基本上是线性的信息流,整合一个线性的信息流,收益是有限的。整合互相垂直的信息,收益会最大,但我看不出来生命组学中测量的东西,哪些是互相垂直的信息。以前蛋白质组不好测量,大家缺少蛋白的信息,希望用容易测的DNA,RNA来代替。现在看来,在DNA、RNA、蛋白的信息流上,调控的因素太多,不测蛋白还是搞不定的。蛋白是生命的执行者。研究生命,没有其他的东西可以取代蛋白。大家现在关注mRNA和蛋白的一致性,这个一致性对测量RNA的人重要,有一致性的RNA就可以用测量RNA来取代蛋白了。但这个角度,对蛋白质组人来说,却是大错特错了。蛋白质组学要关注RNA和蛋白的不一致性。生物医学领域,需要一个数据库,助力人们轻松的查到RNA表达和蛋白表达不一致的基因。研究这个数据库里的基因,必须测蛋白,没法用RNA代替。
       多维蛋白组学数据,Profiling, PTM, PPI,其实整合起来也不容易。有时,单个的分析都不容易。比如,大规模磷酸化数据在肿瘤分型和预测激酶活性中的应用,也刚刚起步,还没有看到什么真正依赖磷酸化组学发现的新东西的范例。这条路还很长。
       第二个坑是人工智能/机器学习。非常好的概念,通俗易懂,使得生物信息学分析更加充满了想象力。但一切用常规方法可以解决的问题,再用机器学习的方法来解决,都是新瓶装旧酒,缺乏新意。机器学习的用途,是在常规方法无法解决的问题。现在蛋白组机器学习的限速步骤在于没有足够的positive controls,还无从下手。我们往往不知道在数据面前问什么问题,也不知道规则是什么,机器学习要去学习“规则”,现在还是强人所难。
 
       正如古代道教所说万法归一,在人类探索自然的道路上,我们会发现学科之间差异会被淡化,学科间的界限会被逐步淡化。但是无论如何,明天对于自然都是一个奇迹。蛋白组学家,也许会慢慢的失去这个称号,变成蛋白科学家,生命科学领域都会是生物学家。这也许是2019年的水晶球可以让我们看清楚的问题。