第三部分
蛋白质复合物识别篇
第5章
蛋白质复合物识别的相关研究
近年来研究者发现,复杂的蛋白质网络有着明显的模块化结构特征[170-172],构成网络的模块内部更可能在功能和拓扑上互相联系[172]。所以,对蛋白质网络进行模块化结构分析,从中挖掘功能模块,对揭示蛋白质功能和解释特定的生物过程具有十分重要的意义。近几年,关于蛋白质网络及其模块化结构分析的研究成为生物信息学的研究热点,已经提出了一系列用于蛋白质网络功能模块挖掘的算法。目前,对于蛋白质复合物和功能模块的区别的讨论还非常有限,在一般意义上,功能模块包含蛋白质复合物,许多挖掘算法将这两者视为同一目标。
一组在相同时间、相同地点相互作用的蛋白质形成的多分子复合体称为蛋白质复合物,如anaphase-promoting复合物、RNA拼接和多聚腺苷酸化物、蛋白质运输复合物等。根据蛋白质复合物中的蛋白质是否能够单独形成稳定的三维晶体结构,蛋白质复合物可以分为依赖型蛋白质复合物(Obligate Complex)和非依赖型蛋白质复合物(Non-obligate Complex)。在生物体内,如果一个蛋白质可以形成自己稳定的三维晶体结构而不需要任何其他蛋白质辅助,那么由这种蛋白质组成的复合物就称为非依赖型蛋白质复合物。如果一些蛋白质不能单独形成其三维晶体结构却可以作为蛋白质复合物的成分并形成稳定的晶体结构,那么这种蛋白质复合物就称为依赖型蛋白质复合物。依据蛋白质复合物存在时间的长短,蛋白质复合物又可以分为瞬时型(Transient)蛋白质复合物和永久型(Permanent)蛋白质复合物。瞬时型蛋白质复合物在生物体内瞬时形成、瞬时分解,而永久型蛋白质复合物不具有这样的行为,它通常由蛋白水解分离。目前,通过生物实验得到大量蛋白质复合物,尤其是模式生物中的蛋白质复合物,如酵母。对于这种相对简单的生物,蛋白质复合物已在全基因组范围内进行了研究,蛋白质复合物数据逐步在完善。免疫沉淀反应(Immunoprecipitation)是一种常用的识别蛋白质复合物成分的实验方法。
识别蛋白质复合物对揭示和解释蛋白质网络中蛋白质的功能和特定的生物过程有重要意义。目前,越来越多的生物信息学家提出了基于蛋白质网络的聚类方法识别蛋白质复合物。本章主要介绍一些经典的蛋白质复合物识别算法,包括基于密度和局部搜索的算法、基于层次聚类的算法以及交叠复合物挖掘的算法。为克服静态蛋白质网络的不足、提高蛋白质复合物预测的准确率,出现了基于多数据融合的蛋白质复合物的识别算法。本章还将对多数据融合的蛋白质复合物识别方法做简要的介绍。