1.5 蛋白质功能
蛋白质是负责细胞、组织、器官和身体中广泛生命活动的生物大分子。它们占细胞干重的50%以上,对细胞的结构和功能发挥核心作用。蛋白质具有重要的生物作用,例如催化活性(如胰蛋白酶)、肌肉收缩(如肌凝蛋白)、支撑结构(如角蛋白)、抗菌和抗病毒防御(如免疫球蛋白)、信号和调控(通过DNA转录的Fos /Jun族)、帮助其他蛋白质折叠(如细菌中GroEL的伴护活性)或存储(如铁蛋白中铁的储存和释放)。
蛋白质在它们所处的环境中执行它们的功能,这个环境包括其他大分子如蛋白质、DNA或RNA。其中有些分子是占用了细胞资源的病毒,其他的是(潜在的致病)微生物的分泌物。这个环境还包括来自食物、水或空气的小化合物,以及温度和pH值等因素。
要理解在分子水平上的生命,必须了解蛋白质是如何执行其功能的。这对理解疾病的分子机制也很重要,因为改变蛋白质的功能会引发许多疾病。例如,血红蛋白的β亚基的第6个残基E突变为V,这种突变就会导致众所周知的镰状细胞病。镰状细胞病是一种由多个血红蛋白四聚体之间的绑定引发的紊乱。这个绑定事件产生的淀粉样原纤维破坏了红细胞的形状和功能,最终导致贫血。
实验注释的蛋白质功能的速度远低于序列数据增长的速度。目前,大约有7000个测序完成的基因组,还有21000个基因组的测序正在进行中[74]。此外,研究人员对地球上约100万的物种进行了分类,并估计总共存在1000万~10000万物种。在Swiss-Prot中,只有大约55000个蛋白质在任何三个方面(分子功能,生物过程,细胞组分)至少有一个实验验证的功能项。除非有新的高通量功能化验可用,否则很难通过实验来填补这种实验注释的蛋白质和已有的大量的序列数据的差距。因此,计算注释成为填补这种差距的首选方法。基于计算的蛋白质功能预测可以用来指导实验室的实验优先级,也可以用于合理的药物设计或分子进化的研究。
在过去的四十年里,陆续提出了许多方法来预测蛋白质功能[75-82]。然而,这些基于计算手段的功能推断方法经常依靠传统方法如识别域(Domain),或用BLAST[83](Basic Local Alignment Search Tool)工具找到有实验手段确定功能的相似蛋白质。最近,成千上万的物种在基因组层面上的可用序列信息,加上大规模高通量实验数据,为功能预测创造了新的机遇。因此,基于氨基酸序列[84-88]、推断的进化关系和基因组上下文[89-93]、蛋白质网络[94-96]、蛋白质结构数据[97-99]、微阵列或数据类型的组合[100-104]来预测蛋白质功能的方法开始涌现。