01
有关氨基酸序列的重要信息
计算多肽链蛋白质的分子质量非常简单直接,只需将多肽链中每种氨基酸的数量乘以该氨基酸的分子质量(每一个氨基酸的分子质量要减去18 Da)所得到的总和累加即可。因为肽链两端分别存在一个游离的氨基和一个游离的羧基,所以要记得在总数上额外加上18 Da。当然除非采用N端测序或质谱的方法检测,否则我们无法知道N端起始的甲硫氨酸是否已经被切去。
假定蛋白质中每一个可电离的基团都有一个pKa(pKa是该残基的半数被离子化时的pH),那么作为pH的函数,可以从给定蛋白质的序列计算出蛋白质的总电荷数。蛋白质静电荷为零时的pH被定义为其等电点(pI)。pI在决定采用哪种离子交换层析树脂纯化蛋白质时非常有用。例如,如果假定一个蛋白质是单体并且不存在能够改变该蛋白质的电荷的修饰形式,那么酸性蛋白质(在pH7时带有负电荷)倾向于与带有正电荷的阴离子交换树脂结合,如Q柱。而碱性蛋白质(在pH7时带有正电荷)则倾向于与带有负电荷的阳离子交换树脂结合,如S柱。如果表面电荷分布不均匀,那么这种通用的原则也会有例外。蛋白质表面可能既会同时存在多个正电荷聚集区又会有多个负电荷聚集区,这样在相同的条件下,蛋白质与阴离子和阳离子交换柱均能结合。
首先可以估计的是,在层析柱中所含缓冲液的pH条件下,蛋白质表面的电荷越多与树脂的结合越紧密,也就越需要用更高浓度的盐进行洗脱。当然,如果蛋白质仅是多蛋白质复合物的一部分,其与离子交换的结合特性就无法得知了。
最后需指出,由于一般情况下蛋白质在其pI时溶解度最小,所以可以考虑采用等电点沉淀的步骤进行纯化(假设蛋白质不会与其他一个或多个蛋白质形成稳定的复合体)。
所有未修饰的蛋白质由于含有色氨酸﹑酪氨酸、半胱氨酸(译者注:似有误,疑为苯丙氨酸)而在280 nm波长处有吸收值。Gill和von Hippel (1989)及Pace等(1995)阐述了相似的方法用来估算给定氨基酸组成的蛋白质的摩尔吸收系数/摩尔消光系数。这涉及一些基于实验数据的假设,也就是关于暴露在表面的与埋在内部的色氨酸、酪氨酸数量的平均的比例的假设。该方法或许是检测纯化后蛋白质浓度最实用有效的方法。
例如,蛋白质含有6个色氨酸、7个酪氨酸,不含半胱氨酸(译者注:似有误,疑为苯丙氨酸),摩尔消光系数(ε280nm)为(6×5500)+(7×1490)+(0×125)=43 430。10-5mol/L的该蛋白质溶液的吸收值(A280nm)则为0.43。比较常用的数值是浓度为1 mg/mL的该蛋白质溶液的A280nm吸收值,该值有时表示为E1mg/ml280nm,用摩尔消光系数除以蛋白质的分子质量便可得出(如果蛋白质分子质量为30 000 Da,则A280nm=43 430/30 000=1.45)。以恰当的缓冲液的A280nm吸收值作为对照,并小心操作将会得出蛋白质溶液的浓度(如果所测得的A280nm值为0.75,则所检测的蛋白质溶液的浓度为0.75/1.45=0.52 mg/mL)。
应该强调的是,如果蛋白质含有核酸污染物、其他的280 nm处有吸收值的物质(如结合的血红素、铁硫中心核苷酸底物或辅因子)或者荧光修饰物(如带有绿色荧光蛋白),那么这种方法是无效的。
笔者总是会看看所尝试纯化的蛋白质是否含有半胱氨酸。如果没有,那么我就不需要往缓冲液中添加诸如二硫苏糖醇(DTT)那样的还原剂了。如果蛋白质来自于大肠杆菌表达,并且含有半胱氨酸,则可以认为在天然蛋白质中不含二硫键,因为细胞质的还原性环境使蛋白质在天然情况下不可能处于氧化状态,除非其定位于周质腔中。一般如果蛋白质含有半胱氨酸,笔者就会在缓冲溶液中添加DTT,以防止不必要的分子内或分子间二硫键的形成。一般很难预测其他来源的并且含有多个半胱氨酸的蛋白质是否会形成二硫键。
有很多非常合理的方法可以对蛋白质某一个区域进行预测,以便能够得知该区域的二级结构是倾向于形成α螺旋还是β折叠。但是这些信息很少用于设计蛋白质的纯化流程。
通过蛋白质序列,采用ProtParam预测蛋白质在体内的半衰期和不稳定性指数是可能的。体内半衰期的计算基于N端原则(Varshavsky,1997)和蛋白质的N端序列,能够给出在哺乳动物细胞、酵母菌或大肠杆菌中表达的蛋白质的近似半衰期的估算。不稳定性指数用于对蛋白质体外稳定性的估计,这种估计基于对你的蛋白质中和一组已知稳定与否的测试蛋白质中存在的某种二肽的分析与比较(Guruprasad et al.,1990)。不稳定指数非常有用,当预测表明蛋白质在体外不稳定时,在纯化时就要非常小心地保持样品始终处于低温或者要在样品中加入蛋白酶抑制剂。
通过对蛋白质氨基酸序列的分析可以找到那些疏水性或亲水性特别强的区域。Kyte和 Doolittle (1982)的方法就是其中之一,该方法为沿着序列绘制亲水值的曲线。这一方法能够让我们找到潜在的跨膜区域,并且对功能未知的蛋白质,可以预测其是否为膜蛋白。一个跨膜区域通常为一个长达23个疏水氨基酸的区段,这些氨基酸形成一个α螺旋结构。如果你得知了所感兴趣的蛋白质为膜蛋白,就可以设计相应的方案来进行纯化。
如果蛋白质的功能未知,可以通过检索蛋白质数据库以确定其是否与其他某个已知蛋白质具有很高的相似性。如果序列相似性大到足以证实二者的同源性,并且如果与目标蛋白质相关的同源家族的其他某个成员已经被深人研究,那么你就大概可以知道很多信息。例如,目标蛋白质是否通常以同源二聚体形式存在。这个信息可以帮我们预测该蛋白质在凝胶过滤层析柱上的行为,还可能用来设计合适的蛋白质检测方法。
如上所述,如果通过序列可以确定蛋白质属于某一个蛋白质家族,而这个蛋白质家族的所有其他成员都与特异的辅因子或底物结合,那么可以确定该蛋白质具有相同的属性。例如,如果该蛋白质属于AAA ATP酶家族,它很可能将会与固定了ATP类似物的亲和层析柱有结合。该亲和纯化步骤能够在纯化流程中起到很大的作用。
现在能够鉴定出存在于氨基酸序列中的短的氨基酸区段或“模式”(motif),它们通常是翻译后修饰位点。其中的一些模式为糖基化位点(NXS或 NXT)、生物素化位点(AMKM)、金属结合位点(锌指)(F/YXCXg~4CX%FX,LX HXR~ HX;)、心肌蛋白激酶识别位点(RRASV)。这些信息对纯化非常有价值。例如,如果蛋白质是糖基化的,那么可能会与凝集素亲和层析柱结合。一些翻译后修饰可以成为一个着力点,目标蛋白质通过它从其他的一些蛋白质中被分离出来。问题是很难预测这些位点是否位于目标蛋白质的表面,或者实际上该位点是否被修饰及在多大程度上被修饰。
一些研究认为,如果一个蛋白质在大肠杆菌(E.coli)中过表达,那么有可能通过蛋白质序列预测它将是可溶还是不可溶的包涵体形式(Idicula-Thomas and Balaji,2005;Wilkinson and Harrison,1991)。很显然,这是非常有用的信息,但是这样重要的信息却是可以通过简单的步骤获得的。只需在过表达蛋白质后破碎细胞,离心裂解产物以将不溶的物质与可溶的分离开来,并且通过十二烷基磺酸钠-聚丙烯酰胺凝胶电泳(SDS-PAGE)分析这两种组分便可。过表达蛋白质可溶部分的比例可以随着细胞生长条件的改变而显著变化,这就意味着基于序列的可溶性预测虽然可能有用,但也是有很大的局限性。
1
02
无法从序列中预知的信息
虽然寻找通过氨基酸序列预测蛋白质的三维结构的方法已经花费了巨大的时间和精力,但是目前仍然无法确认预测结构的准确性。在这种情况下,如果目标蛋白质表现出与某个已知结构的蛋白质的高度相似性,那么将其氨基酸序列“套入”到已知结构中,可以得出目标蛋白质结构的合理估算。
如果没有准确的结构信息,就无法预知蛋白质的形状或详细的表面特性,如疏水区域分布电荷分布和抗原位点等,也就很难预测其在进行疏水交换层析或离子交换层析时的行为,而蛋白质形状直接影响其斯托克半径(Stokes radius),不知道其形状便无法预测其在凝胶过滤层析时的行为(同等分子质量的球形蛋白质在凝胶过滤层析时比不对称或雪茄形的蛋白质显得要小)。
即使我们可以准确地预测蛋白质的三维结构,却仍然不能预测该蛋白质在溶液中是以多体(如六聚体)形式还是以单体形式存在。缺乏这一信息便无法合理地预测其在分子筛层析柱或离子交换层析柱上的行为。更重要的是一些蛋白质是作为多亚基复合体的一部分而存在,无法预测该蛋白质是否在纯化时仍作为一个复合体存在,如果是,其纯化特征可能很大程度上是由与其结合在一起的其他亚基所决定的。
未经允许不得转载:hth网页入口»发酵后处理:蛋白制品纯化设计中有关生物信息学的13个特征(10可知、3不可知)