Predicción de péptidos señal

Publicado originalmente por CLC bio bajo licencia Creative Commons.

Traducido por Juan Pablo Bustamante y Victoria Dumas

La importancia de los péptidos señal fue demostrada en 1999 cuando Günter Blobel recibió el Premio Nobel en fisiología y medicina por su descubrimiento de que “las proteínas tienen señales intrínsecas que gobiernan su transporte y localización en la célula” [Blobel 2000]. Él señaló la importancia de motivos peptídicos definidos para conducir a las proteínas a su sitio de función.

La realización de una consulta a PubMed revela que se han publicado miles de artículos considerando péptidos señal, la secreción y la localización subcelular, incluyendo el conocimiento del uso de péptidos señal como vehículos para proteínas quiméricas para la industria biomédica y farmacéutica. Muchos artículos describen métodos estadísticos o de aprendizaje maquinal para la predicción de péptidos señal y predicción de la localización subcelular en general. Después de que fue publicado el primer método para la predicción del péptido señal [von Heijne, 1986], han surgido más y más métodos, aunque no todos los métodos han sido puestos a diposición públicamente.

Diferentes tipos de péptido señal

Poco después del descubrimiento inicial de Günter Blobel de los péptidos señal, se encontraron más señales de direccionamiento. La mayoría de los tipos celulares y organismos emplean varias formas de direccionamiento de proteínas al ambiente extracelular y a las localizaciones subcelulares. La mayoría de las proteínas direccionadas hacia el espacio extracelular o hacia localizaciones subcelulares portan motivos de secuencias específicas (péptidos señal) que caracterizan el tipo de secreción/direccionamiento que experimentan.

Durante los últimos años se han encontrado varios péptidos señal o señales de direccionamiento nuevas, y los artículos describen con frecuencia un pequeño motivo de aminoácidos requeridos para la secreción de cierta proteína particular. En la mayoría de los casos más recientes, el motivo de la secuencia identificada sólo se encuentra en esta proteína particular y como tal, no puede ser descripta como un grupo de péptidos señal.

Describir la variedad de tipos de péptidos señal está más allá del alcance de este texto, pero varias reseñas de este tema pueden encontrarse en PubMed. Los motivos dirigidos pueden ser removidos de, o retenidos en una proteína madura luego de que ésta ha alcanzado el destino final correcto. Algunos de los péptidos señal mejor caracterizados están representados en la figura 1.

Han sido desarrollados numerosos métodos para la predicción del direccionamiento proteico y de péptidos señal, algunos de los cuales son mencionados y citados en la introducción del artículo de investigación SignalP [Bendtsen et al., 2004b]. Sin embargo, el método sin predicción será capaz de cubrir todos los distintos tipos de péptidos señal. La mayoría de los métodos predicen péptidos señal clásicos que apuntan a las vías secretoras generales en bacterias o a las vías secretoras clásicas en eucariotas. Además, han emergido algunos métodos para la predicción de proteínas secretadas de manera no clásica [Bendtsen et al., 2004ª, Bendtsen et al., 2005].

Predicción de péptidos señal y localización subcelular

En la búsqueda de una predicción precisa de los péptidos señal, se han investigado muchos enfoques. Aproximadamente 20 años atrás, fue publicado el primer método para la predicción de péptidos señal [von Heijne, 1986]. Hoy en día, los métodos de aprendizaje maquinal más sofisticados, tales como redes neuronales, máquinas de soporte vectorial y modelos ocultos de Markov han llegado junto con el incremento de la potencia computacional, y todos ellos son superiores a los viejos métodos basados en matriz de pesos [Menne et al., 2000]. También, muchos otros enfoques estadísticos “clásicos” han sido llevados a cabo, a veces en conjunción con métodos de aprendizaje por computadora. En las siguientes secciones, serán descriptos un amplio rango de péptido señal y métodos de predicción subcelular.

La mayoría de los métodos de predicción peptídica requieren la presencia del extremo terminal N correcto de la preproteína para la correcta clasificación. Como los proyectos de secuenciación del genoma a gran escala a veces asigna el extremo 5’ de los genes incorrectamente, muchas proteínas se anotan sin el terminal N correcto [Reinhardt y Hubbard, 1998] conduciendo a la predicción incorrecta de la localización subcelular. Estas predicciones erróneas pueden ser directamente atribuidas a la pobreza de la detección genética. Otros métodos para la predicción de la localización subcelular utilizan información dentro de la proteína madura y en consecuencia son más robustos al truncamiento del terminal N y a los errores de la detección génica.

peptide-signal

Figura 1. Representación esquemática de varios péptidos señales. El color rojo indica la región N, el color gris indica la región H, el celeste indica la región C. Todos los círculos blancos son parte de la proteína madura. +1 indica la primera posición de la proteína madura. El largo de los péptidos señal no está graficado a escala.

notas

Figura 2. Secuencia de letras aminoacídicas de péptidos señal eucarióticos, que muestra la conservación de los aminoácidos en bits [Schneider y Stephens, 1990]. Los residuos polares e hidrofóbicos se muestran en verde y negro respectivamente, mientras que el azul indica residuos cargados positivamente y el rojo residuos cargados negativamente. La letra está basada en un alineamiento de secuencias fijas en la posición -1 de los péptidos señal.

El método SignalP

Uno de los mejores métodos y más citados para la predicción de péptidos señal clásicos es el método de SignalP [Nielsen et al., 1997, Bendtsen et al., 2004b]. En contraste a otros métodos, el SignalP predice además el sitio real de escisión; y de este modo el péptido que se escinde durante la translocación sobre la membrana. Recientemente, un artículo de investigación independiente ha evaluado el SignalP 3.0 como la mejor herramienta independiente para la predicción de péptido señal. Se mostró que el puntaje D, reportado por el método SignalP es la mejor medida para diferenciar proteínas secretoras de no secretoras [Klee y Ellis, 2005].
El método SignalP se localiza en http:www.cbs.dtu.dk/services/SignalP/

¿Qué significan los puntajes de SignalP?

Muchos enfoques o herramientas de predicción bioinformáticas no presentan una respuesta cerrada. Frecuentemente, el usuario se enfrenta a una interpretación de la salida, la cual puede ser numérica o gráfica.
¿Por qué es esto?. En los ejemplos bien definidos no hay duda; si: ¡esto es un péptido señal!. Pero, en casos límite frecuentemente es conveniente tener más información que una respuesta cerrada. Aquí una salida gráfica puede ayudar a interpretar la respuesta correcta. Un ejemplo es mostrado en la figura 3.

notas

Figura 3. Salida gráfica del método SignalP de la entrada SFMA_ECOLI de Swiss-Prot. Inicialmente esto se ve como una predicción límite, pero una inspección cercana de la secuencia reveló una metionina en la posición 12, lo cual puede indicar un inicio erróneamente determinado para la proteína. Luego esta proteína fue redeterminada por Swiss-Prot para iniciar la metionina en la posición 12. Ver el texto para la descripción de los puntajes.

La salida gráfica del SignalP (red neuronal) comprime tres puntajes diferentes, C, S y Y. Se reportan dos puntajes adicionales en la salida SignalP3-NN, denominados la media S y el puntaje D, pero esos sólo se reportan como valores numéricos.

Para cada clase de organismo en SignalP; eucariota, Gram-negativa y Gram-positiva, se usan dos redes neuronales diferentes, una para la predicción del péptido señal real y una para la predicción de la posición del sitio de escisión de la peptidasa I de señal (SPase I). El puntaje S para la predicción de péptido señal se reporta para cada posición de un único aminoácido en la secuencia presentada, con un alto puntaje indicando que el aminoácido correspondiente es parte de un péptido señal, y un puntaje bajo indicando que el aminoácido es parte de una proteína madura.

El puntaje C es el puntaje del “sitio de escisión”. Para cada posición en la secuencia presentada, es reportado un puntaje C, el cual sólo debería ser significativamente alto en el sitio de escisión. Frecuentemente se ve una confusión con el número de la posición del sitio de escisión. Cuando una posición del sitio de escisión es referida por un único número, el número indica el primer residuo en la proteína madura. Esto significa que un sitio de escisión reportado entre el aminoácido 26 y 27 corresponde al inicio de la proteína madura en la posición 27 inclusive.

Y-max es una derivada del puntaje C combinado con el puntaje S, resultando en una mejor predicción del sitio de escisión que el puntaje C sólo. Esto se debe al hecho de que múltiples puntajes C de picos altos pueden ser encontrados en una secuencia, donde sólo una es el verdadero sitio de escisión. El sitio de escisión es asignado a partir del puntaje Y donde el gradiente del puntaje S es abrupto y se encuentra un puntaje C significativo.

La media S es el promedio del puntaje S, que va desde el aminoácido del terminal N al aminoácido asignado con el puntaje más alto de Y máxima, así el puntaje de la media S se calcula para la longitud del péptido señal predicho. El puntaje de la media S fue usado en el SignalP 2.0 como criterio para la discriminación de proteínas secretoras y no secretoras.

El puntaje D se introdujo en el SignalP 3.0, y es un promedio simple de la media S y el puntaje Y-max. El puntaje muestra un rendimiento superior de discriminación de proteínas secretoras y no secretoras al puntaje de la media S que fue usado en las versiones 1 y 2 de SignalP.

Para las proteínas no secretoras, todos los puntajes representados en la salida SignalP3-NN deberían idealmente ser muy bajos.

El modelo oculto de Markov calcula la probabilidad de que la secuencia contenga o no un péptido señal. El modelo oculto de Markov eucariota además reporta la probabilidad de un ancla señal, previamente denominada péptido señal no escindido. También, el sitio de escisión es asignado por un puntaje de probabilidad junto con puntajes para la región N, la región H y la región C del péptido señal, si se encontró.

Otras fuentes útiles

www.cbs.dtu.dk/services/SignalP

Referencias

[Bendtsen et al., 2004a] Bendtsen, J. D., Jensen, L. J., Blom, N., Heijne, G. V., and Brunak, S. (2004a). Feature-based prediction of non-classical and leaderless protein secretion. Protein Eng Des Sel, 17(4):349–356.
[Bendtsen et al., 2005] Bendtsen, J. D., Kiemer, L., Fausbøll, A., and Brunak, S. (2005). Non-classical protein secretion in bacteria. BMC Microbiol, 5:58.
[Bendtsen et al., 2004b] Bendtsen, J. D., Nielsen, H., von Heijne, G., and Brunak, S. (2004b). Improved prediction of signal peptides: SignalP 3.0. J Mol Biol, 340(4):783–795.
[Blobel, 2000] Blobel, G. (2000). Protein targeting (Nobel lecture). Chembiochem., 1:86–102.
[Klee and Ellis, 2005] Klee, E. W. and Ellis, L. B. M. (2005). Evaluating eukaryotic secreted protein prediction. BMC Bioinformatics, 6:256.
[Menne et al., 2000] Menne, K. M., Hermjakob, H., and Apweiler, R. (2000). A comparison of signal sequence prediction methods using a test set of signal peptides. Bioinformatics,16(8):741–742.
[Nielsen et al., 1997] Nielsen, H., Engelbrecht, J., Brunak, S., and von Heijne, G. (1997). Identification of prokaryotic and eukaryotic signal peptides and prediction of their cleavage sites. Protein Eng, 10(1):1–6.
[Reinhardt and Hubbard, 1998] Reinhardt, A. and Hubbard, T. (1998). Using neural networks for prediction of the subcellular location of proteins. Nucleic Acids Res, 26(9):2230–2236.
[Schneider and Stephens, 1990] Schneider, T. D. and Stephens, R. M. (1990). Sequence logos: a new way to display consensus sequences. Nucleic Acids Res, 18(20):6097–6100.
[von Heijne, 1986] von Heijne, G. (1986). A new method for predicting signal sequence cleavage sites. Nucl. Acids Res., 14:4683–4690.

Licencia Creative Commons

Todos los artículos científicos de CLC bio están licenciados bajo la Licencia Reconocimiento-No comercial-Sin obra derivada 2.5. Eres libre para copiar, distribuir, mostrar y usar el trabajo con fines educativos, bajo las siguientes condiciones: debes reconocer el trabajo en su forma original y “CLC bio” debe estar claramente señalado como el autor y proveedor del trabajo. No puede utilizar esta obra para fines comerciales. Usted no puede alterar, transformar o basarse en este trabajo.

Ver CreativeCommons.org para más información sobre como puede utilizar estos contenidos.

 

Comentarios