4.3 Cadenas de Markov como modelos de secuencias

Ejemplo con secuencias biológicas

  • Una secuencia biológica es una sucesión de elementos (bases, aminoácidos, etc) sacados de un cierto alfabeto.

  • Supongamos que tenemos un alfabeto con \(r\) “letras”.

  • Proteı́nas: secuencias generadas a partir de 20 aminoácidos.

\[ \{R, K , D, E , Q, S, C , H, N, T , W , Y , M, A, I , L, F , V , P, G\} \]
_images/markov_secuencias_1.png

Fig. 9 Secuencia de aminoácidos

En general:

  • Suponiendo que la probabilidad de observar una letra en una posición sólo depende de la posición anterior (hipótesis Markoviana) la generación de una secuencia puede modelizarse con una cadena de Markov.

  • Cada una de las letras del alfabeto serı́a un estado de la cadena de Markov.

  • Dada una lista de secuencias relacionadas, podemos calcular las frecuencias las \(r^2\) transiciones posibles entre las letras.

  • Podemos calcular también la probabilidad de observar una secuencia dada o determinar la secuencia más verosı́mil.

  • Para cadenas largas, podemos comparar las distribuciones de probabilidad predichas por el modelo (vector de equilibrio) con los datos.