做蛋白质组学的小伙伴们可能都有这样的感受,利用质谱技术进行蛋白鉴定,是件既简单又复杂的事情。
说简单,是因为它的原理无非就是通过各种方法把蛋白序列打碎,通过质谱收集信号(谱图),然后用软件进行数据库搜库,将实验得到的谱图与理论预测的谱图进行比对,从而得到目标蛋白的序列信息即可。
话说,2015年7月Nature Methods上发表了一篇题为"Mass spectrometrists should search only for peptides they care about"的文章。
细细读来,发现该文章的研究主要与疟疾有关,样品会同时包含人和疟原虫的蛋白。作者发现,如果只对疟原虫蛋白感兴趣的话,在固定FDR的情况下,只搜索疟原虫数据库会使鉴定结果的灵敏度得到提高!而主要原因是疟原虫数据库的搜索空间仅仅为人蛋白和疟原虫蛋白联合库的三分之一。
只搜索疟原虫数据库这种做法是不是个好主意呢?其实并不绝对,这部分取决于你的实验是探索性的还是有针对性的。
文章中,作者指出"… focusing an experiment on a small, targeted collection of peptides necessarily eliminates the possibility of serendipitous, unexpected discoveries." 但如果我们假设该样品已经经过前期实验的良好表征,确定可以排除对人源蛋白研究的必要,这种情况下就可以只搜索单一的疟原虫数据库了么?
共享肽段的影响
比如,在人类蛋白研究中,如果目标蛋白之一是HSA(人血清白蛋白),却不慎混入了BSA(牛血清白蛋白);或者,小鼠蛋白研究中关注的是上皮细胞的蛋白,却不慎掉入了人Keratin(角蛋白)。这些样品受到污染的情况时有发生。原文作者建议在数据库搜索时直接去掉这些可能的干扰蛋白,但这对于大多数研究来说,属于掩耳盗铃的行为。
样品复杂性的影响
原文作者没考虑到的另一个更重要的问题是样品数据的复杂程度。如果数据中疟原虫来源的谱图占90%,而人源的只有10%,那么搜索疟原虫数据库自然可以提高灵敏度。但是如果其组成是10%的疟原虫和90%的人源蛋白,搜库灵敏度可能反而会大幅下降。
比如我们测试了一个90%牛痘蛋白和10%牛蛋白的数据,同时设定PSM 1%FDR质控,数据库为Swissprot。得到如下结果:
反过来讲,如果你在缩小搜索空间的时候去除了大部分正确匹配的序列信息,那么在等同FDR下,结果的灵敏度则会变差,类似于上面所举的牛痘/牛蛋白的例子。
如果去除牛痘序列,则会去掉所有正确PSM中的牛痘相关结果。当数据库变小时,Decoy结果的得分一般也会相应降低,但这会有边际效应。使得当我们需要控制牛蛋白PSM的FDR为1%时,相应的阈值需要提的非常高,用来去除很大一部分Decoy结果,很明显这样会降低灵敏度。
正确的牛蛋白PSM的Mascot得分在搜索哺乳动物库和哺乳动物+牛痘库时是一样的,而相应的期望阈值expect value(或者是p-value及PEP值)都会在单独的哺乳动物库中得到更好的结果,原因就是相应的搜索空间会小一些。从这个意义上来说,匹配结果是不可靠的。表面上看是因为FDR的评估标准失去了足够的灵敏度,但目前来说,这又是一个普遍接受的质控标准,你想发文章的话,很难让审稿人接受一个高FDR的数据结果。(转自 克里克学苑)