4.0 Análisis de Secuencias: Objetivo

Objetivo: predicción de estructuras de proteínas

  • El plegamiento de proteínas es extremadamente complejo

  • Predecir las estructuras de mayor nivel (terciaria, cuaternaria) implica conocer bien la estructura secundaria (formada por los enlaces de hidrógeno que ocurren entre los AA

  • Dada una colección de secuencias de AA, ¿podemos predecir la estructura secundaria que será más probable en cada sitio de la secuencia?

fishy

Fig. 1 Estructura secundaria

Las principales estructuras secundarias que se observan son:

  • Hélices de varios tipos \(H\) (por ejemplo \(\alpha\)-hélices)

  • Hojas extendidas \(E\) (por ejemplo hojas \(\beta\))

  • Otras conformaciones, \(C\)

El método DSSP de estimación de los enlaces de hidrógeno permite estimar estructuras secundarias.

Aprendizaje automático

¿Podemos utilizar técnicas de aprendizaje automático para predecir estructuras secundarias a partir de secuencias cuya estructura ha sido previamente anotada?

_images/pdb.png

Fig. 2 Protein data bank

Se han aplicado diferentes técnicas:

  • Redes neuronales

  • Máquinas de vectores de soporte

Nos centraremos en modelos de Markov ocultos (HMM), que consideran no observables las diferentes conformaciones que adopta cada elemento, mientras que sólo la secuencia de AA es observable.

Para poder aplicarlos al análisis de secuencias, primero hay que saber qué entendemos por un modelo de Markov