蛋白鉴定攻略之--搜库只搜目标序列?

日期:2016-08-24 20:50

浏览量:157
                                                                                                                                 (转自 克里克学苑)
做蛋白质组学的小伙伴们可能都有这样的感受,利用质谱技术进行蛋白鉴定,是件既简单又复杂的事情。




说简单,是因为它的原理无非就是通过各种方法把蛋白序列打碎,通过质谱收集信号(谱图),然后用软件进行数据库搜库,将实验得到的谱图与理论预测的谱图进行比对,从而得到目标蛋白的序列信息即可。
 



 
 
说复杂,这里面有太多的因素影响搜库结果的准确性,比如目标蛋白的丰度、酶切效果、肽段碎裂方式、蛋白修饰、母离子及子离子质量偏差等等。关于蛋白鉴定的各种技巧和攻略,小编打算开一个专题系列跟大家慢慢聊。
 

 
一篇文献引发的讨论
 

 

今天,我们先来聊一下蛋白鉴定时,在样品比较简单或者有了明确目标蛋白的情况下,能否只搜目标蛋白库,以及我们需要考虑的各种影响因素。
 
话说,2015年7月Nature Methods上发表了一篇题为"Mass spectrometrists should search only for peptides they care about"的文章。
 



 
 
在搜索某一物种或在全库中指定物种搜索时,我们通常建议加入常见污染蛋白序列。而这篇文献的观点,乍一看,与我们常规的做法似乎大相径庭!
 
细细读来,发现该文章的研究主要与疟疾有关,样品会同时包含人和疟原虫的蛋白。作者发现,如果只对疟原虫蛋白感兴趣的话,在固定FDR的情况下,只搜索疟原虫数据库会使鉴定结果的灵敏度得到提高!而主要原因是疟原虫数据库的搜索空间仅仅为人蛋白和疟原虫蛋白联合库的三分之一。
 
 
 
只搜索疟原虫数据库这种做法是不是个好主意呢?其实并不绝对,这部分取决于你的实验是探索性的还是有针对性的。
 
文章中,作者指出"… focusing an experiment on a small, targeted collection of peptides necessarily eliminates the possibility of serendipitous, unexpected discoveries." 但如果我们假设该样品已经经过前期实验的良好表征,确定可以排除对人源蛋白研究的必要,这种情况下就可以只搜索单一的疟原虫数据库了么?
 
 
 

共享肽段的影响


 
事情可能没这么简单!别忘了还有共享肽段的问题。比如人类和疟原虫间的同源性非常小,那么共享肽段对搜库结果的影响也小。然而,当两个物种间同源性较高时,存在共享肽段的蛋白将对分析结果产生很大的误差。
 
比如,在人类蛋白研究中,如果目标蛋白之一是HSA(人血清白蛋白),却不慎混入了BSA(牛血清白蛋白);或者,小鼠蛋白研究中关注的是上皮细胞的蛋白,却不慎掉入了人Keratin(角蛋白)。这些样品受到污染的情况时有发生。原文作者建议在数据库搜索时直接去掉这些可能的干扰蛋白,但这对于大多数研究来说,属于掩耳盗铃的行为。 
 


 
 

样品复杂性的影响
 


原文作者没考虑到的另一个更重要的问题是样品数据的复杂程度。如果数据中疟原虫来源的谱图占90%,而人源的只有10%,那么搜索疟原虫数据库自然可以提高灵敏度。但是如果其组成是10%的疟原虫和90%的人源蛋白,搜库灵敏度可能反而会大幅下降。



比如我们测试了一个90%牛痘蛋白和10%牛蛋白的数据,同时设定PSM 1%FDR质控,数据库为Swissprot。得到如下结果:
 
 
 
 
 
如果我们感兴趣的是牛痘蛋白,那么显然仅仅搜索病毒数据库会得到更好地灵敏度。如果我们感兴趣的是牛蛋白,而我们选择搜索哺乳动物数据库,你会发现灵敏度反而大大下降。具体到某些蛋白来说,举例如下: 
 

 
通常来说,如果你能保证正确匹配的序列不被排除在外的话,缩小搜索空间一定会在等同FDR条件下提高灵敏度。如原作者的做法,缩小搜索的序列数据库,或者降低MS1容差值,或者去掉丰度较低的可变修饰设置。  
反过来讲,如果你在缩小搜索空间的时候去除了大部分正确匹配的序列信息,那么在等同FDR下,结果的灵敏度则会变差,类似于上面所举的牛痘/牛蛋白的例子。
 
如果去除牛痘序列,则会去掉所有正确PSM中的牛痘相关结果。当数据库变小时,Decoy结果的得分一般也会相应降低,但这会有边际效应。使得当我们需要控制牛蛋白PSM的FDR为1%时,相应的阈值需要提的非常高,用来去除很大一部分Decoy结果,很明显这样会降低灵敏度。
 
正确的牛蛋白PSM的Mascot得分在搜索哺乳动物库和哺乳动物+牛痘库时是一样的,而相应的期望阈值expect value(或者是p-value及PEP值)都会在单独的哺乳动物库中得到更好的结果,原因就是相应的搜索空间会小一些。从这个意义上来说,匹配结果是不可靠的。表面上看是因为FDR的评估标准失去了足够的灵敏度,但目前来说,这又是一个普遍接受的质控标准,你想发文章的话,很难让审稿人接受一个高FDR的数据结果。(转自 克里克学苑)