# 4.5 Análisis de HMM

Tenemos tres fases:

1. [__Aprendizaje__](content:markov:hmm:aprendizaje): dada una lista de secuencias de sı́mbolos, ¿podemos __aprender__ los parámetros $(\pi^{(0)} , P, E )$ de un HMM? __Algoritmo de Baum-Welch__.


2. [__Evaluación__](content:markov:hmm:evaluacion): una vez que el modelo está ajustado, ¿cuál es la verosimilitud de una secuencia dada? __Algoritmo “forward”__.


3. [__Descodificación__](content:markov:hmm:descodificacion): una vez que el modelo está ajustado, ¿cuál es el la secuencia de estados __más probable__ para generar de una secuencia de sı́mbolos dada? __Algoritmo de Viterbi__.

(content:markov:hmm:aprendizaje)=
## 4.5.1 Aprendizaje

Dos casos:
1. Si conocemos las secuencias de estados asociadas a cada secuencia de sı́mbolos
2. Si no los conocemos

### Caso 1: conocemos las secuencias de estados asociadas a los símbolos

En proteı́nas, esto equivale a conocer la estructura secundaria de cada secuencia de aminoácidos.

+ La verosimilitud de que una secuencia de estados $\mathcal{est}=\{x_1,\ldots,x_n\}$ genere una secuencia de símbolos $\mathcal{sim}=\{s_1,\ldots,s_n\}$ es:

$$
\mathbb{P}\{\mathcal{est},\mathcal{sim}\}=
\mathbb{P}\{X_1=x_1\}\mathbb{P}\{S_1=s_1|X_1=x_1\}\times
\prod_{t=2}^{n}\mathbb{P}\{X_t=x_t|X_{t-1}=x_{t-1}\}\mathbb{P}\{S_t=s_t|X_t=x_t\}
$$

+ Entonces el método de __máxima verosimilitud__ permite estimar los parámetros como frecuencias relativas en el conjunto de entrenamiento.

```{note}
En el __conjunto de entrenamiento__
```



+ Probabilidades de transición:

$$
p_{ij}=\frac{\text{número de transiciones desde $X=x_i$ hasta $X=x_j$}}{\text{número de transiciones que parten de $X=x_i$}}
$$

+ Probabilidades de emisión:

$$
e_{ij}=
\frac{\text{número de veces que el estado $X=x_i$ emite el símbolo $S=s_j$}}{\text{número de veces que el estado es $X=x_i$}}
$$


+ Vector inicial:

$$
\pi^{(0)}_{i}=
\frac{\text{número de veces que el estado inicial es $X=x_i$}}
{\text{número total de instancias}}
$$


### Caso 2: no conocemos las secuencias de estados asociadas a los símbolos

En proteı́nas, esto equivale a conocer solamente las secuencias de aminoácidos.

+ Este es el caso más frecuente en la práctica.


+ En este caso se puede aplicar el __algoritmo de Baum-Welch__, que estima también las probabilidades de transición aunque no conozcamos las secuencias de estados.




(content:markov:hmm:evaluacion)=
## 4.5.2 Evaluación


```{warning}
¡Tras la fase de aprendizaje!
```


Dada una secuencia de __sı́mbolos__ (aminoácidos), ¿puedo calcular la probabilidad de observarla de acuerdo con el HMM?

+ Equivale a calcular la probabilidad marginal

$$
\mathbb{P}\{\mathcal{sim}\}=
\sum_{\{x_1,\ldots,x_n\}}
\mathbb{P}\{X_1=x_1\}\mathbb{P}\{S_1=s_1|X_1=x_1\}\prod_{t=2}^{n}\mathbb{P}\{X_t=x_t|X_{t-1}=x_{t-1}\}\mathbb{P}\{S_t=s_t|X_t=x_t\}
$$

donde tenemos que sumar sobre todos los posibles caminos que generan la secuencia.


+ El número de posibilidades crece __exponencialmente__ con $n$.


+ Se usa __programación dinámica__ para calcular la suma anterior de manera __eficiente__. El resultado es el __algoritmo “forward”__.





(content:markov:hmm:descodificacion)=
## 4.5.3 Descodificación

```{warning}
¡Tras la fase de aprendizaje!
```

Dada una secuencia de sı́mbolos (aminoácidos), ¿puedo calcular la secuencia de estados ocultos (estructuras secundarias) que maximiza la verosimilitud $\mathbb{P}\{\mathcal{est}, \mathcal{sim} \}$?

+ Es un proceso de máxima verosimilitud.


+  Se usa __programación dinámica__ eligiendo la rama de __mayor probabilidad__ en cada paso de la secuencia.


+ El resultado es el __algoritmo de Viterbi__.

### Algoritmo de Viterbi

Para el ejemplo anterior:

$$
\mathbf{v}_0=\left(\stackrel{H}{0.6},\quad 
\stackrel{C}{0.4}
\right),\quad
P=
\stackrel{H\quad C}{%
    \begin{bmatrix}
    0.6 & 0.4 \\
    0.3 & 0.7 
    \end{bmatrix}%
  },\quad
E=
\begin{matrix}
H \\C
\end{matrix}
\stackrel{G\quad W\quad M}{%
    \begin{bmatrix}
    0.6 & 0.3 & 0.1 \\
    0.2 & 0.4 & 0.4 
    \end{bmatrix}%
  }
$$

Tenemos una cadena con tres símbolos observados: $G-W-M$ (en ese orden). Queremos conocer la cadena de estados subyacente __más probable__.

:::{figure-md} markdown-fig.4.05.1
<img src="./images/hmm1.png" width="600px">

Viterbi
:::

$$
\pi^{(0)}=\left(\stackrel{\color{red}{H}}{\color{red}{0.6}},\quad 
\stackrel{\color{blue}{C}}{\color{blue}{0.4}}
\right),\quad
P=
\stackrel{H\quad C}{%
    \begin{bmatrix}
    0.6 & 0.4 \\
    0.3 & 0.7 
    \end{bmatrix}%
  },\quad
E=
\begin{matrix}
H \\C
\end{matrix}
\stackrel{\color{orange}{G}\quad W\quad M}{%
    \begin{bmatrix}
    \color{red}{0.6} & 0.3 & 0.1 \\
    \color{blue}{0.2} & 0.4 & 0.4 
    \end{bmatrix}%
  }
$$


$$
\mathcal{L}_1(H)=\pi^{(0)}(H)\cdot E(H\rightarrow G)= 0.6 \times 0.6 = 0.36
$$


$$
\mathcal{L}_1(C)=\pi^{(0)}(C)\cdot E(C\rightarrow G)= 0.4 \times 0.2 = 0.08
$$

:::{figure-md} markdown-fig.4.05.2
<img src="./images/hmm2.png" width="600px">

Viterbi
:::

Siguiente paso: calculamos las probabilidades de las 4 cadenas posibles. 

```{admonition} __Importante__
:class: note
Partimos de 

$$
\mathcal{L}_1=\left(
\stackrel{\color{red}{H}}{\color{red}{0.36}}
,\quad 
\stackrel{\color{blue}{C}}{\color{blue}{0.08}}
\right)
,\quad
P=
\stackrel{H\quad C}{%
    \begin{bmatrix}
    0.6 & 0.4 \\
    0.3 & 0.7 
    \end{bmatrix}%
  },\quad
E=
\begin{matrix}
H \\C
\end{matrix}
\stackrel{G\quad \color{orange}{W}\quad M}{%
    \begin{bmatrix}
    0.6 & 0.3 & 0.1 \\
    0.2 & 0.4 & 0.4 
    \end{bmatrix}%
  }
$$
```


+ Probabilidad de la cadena $H-H$:


$$
\mathcal{L}_1(H)\cdot P(H\rightarrow H)\cdot E(H\rightarrow W) = 0.36 \times 0.6 \times 0.3 = 0.0648
$$


+ Probabilidad de la cadena $C-H$:


$$
\mathcal{L}_1(C)\cdot P(C\rightarrow H)\cdot E(H\rightarrow W) = 0.08 \times 0.3 \times 0.3 = 0.0072
$$

```{admonition} __Importante__
:class: tip
En este momento podemos rechazar la cadena $C-H$ frente a $H-H$, ya que la primera tiene menos probabilidad de ocurrir. Aquí radica la potencia del algoritmo de Viterbi: dejamos de calcular las probabilidades de todas las cadenas sucesivas a $C-H$.

```


```{note}
Esta selección se hace a __nivel de nodo__: rechazamos uno de los caminos que __llegan a un nodo__.
```

:::{figure-md} markdown-fig.4.05.3
<img src="./images/hmm3.png" width="600px">

Viterbi
:::



+ Probabilidad de la cadena $H-C$:


$$
\mathcal{L}_1(H)\cdot P(H\rightarrow C)\cdot E(C\rightarrow W) = 0.36 \times 0.4 \times 0.4 = 0.0576
$$


+ Probabilidad de la cadena $C-C$:


$$
\mathcal{L}_1(C)\cdot P(C\rightarrow C)\cdot E(C\rightarrow W) = 0.08 \times 0.7 \times 0.4 = 0.0224
$$


> Igualmente, aquí podemos descartar la cadena $C-C$ frente a $H-C$ (y todas las sucesivas cadenas de $C-C$).

Hemos rechazado los caminos $C-C$ y $C-H$, por tanto podemos rechazar que la cadena pasa por nodo $C$ en la primera etapa. 

> En cada caso: tomamos el camino de __mayor probabilidad__ y marcamos el nodo.

:::{figure-md} markdown-fig.4.05.4
<img src="./images/hmm4.png" width="600px">

Viterbi
:::

```{admonition} __Importante__
:class: warning
__NO__ podemos rechazar, no obstante, el nodo $C$ en la segunda etapa de la cadena (emisión $=W$). En este momento disponemos de la probabilidad que la cadena sea $H-C$ ó $H-H$, pero la cadena de Markov __continua__.
```




> Continuamos el proceso hasta la última etapa de la cadena: calculamos las probabilidades de las cadenas restantes, que son:
+ $H-H-H$
+ $H-H-C$
+ $H-C-H$
+ $H-C-C$


```{note}  
En la tercera etapa el estado observado es $M$
```

Partimos de esta situación


$$
\mathcal{L}_2=\left(
\stackrel{\color{red}{H}}{\color{red}{0.065}}
,\quad 
\stackrel{\color{blue}{C}}{\color{blue}{0.0058}}
\right)
,\quad
P=
\stackrel{H\quad C}{%
    \begin{bmatrix}
    0.6 & 0.4 \\
    0.3 & 0.7 
    \end{bmatrix}%
  },\quad
E=
\begin{matrix}
H \\C
\end{matrix}
\stackrel{G\quad \color{orange}{W}\quad M}{%
    \begin{bmatrix}
    0.6 & 0.3 & 0.1 \\
    0.2 & 0.4 & 0.4 
    \end{bmatrix}%
  }
$$

+ Probabilidad de la cadena $H-H-H$

$$
\mathcal{L}_2(H)\cdot P(H\rightarrow H)\cdot E(H\rightarrow M) = 0.065\times 0.6 \times 0.1 = 0.0039
$$

+ Probabilidad de la cadena $H-H-C$

$$
\mathcal{L}_2(H)\cdot P(H\rightarrow C)\cdot E(C\rightarrow M) = 0.065\times 0.4 \times 0.4 = 0.0104
$$


+ Probabilidad de la cadena $H-C-H$

$$
\mathcal{L}_2(C)\cdot P(C\rightarrow H)\cdot E(H\rightarrow M) = 0.058 \times 0.3 \times 0.1 = 0.00174
$$

+ Probabilidad de la cadena $H-C-C$

$$
\mathcal{L}_2(C)\cdot P(C\rightarrow C)\cdot E(C\rightarrow M) = 0.058\times 0.7\times 0.4 = 0.01624
$$

:::{figure-md} markdown-fig.4.05.5
<img src="./images/hmm5.png" width="600px">

Viterbi
:::

> Observaciones

+ De los dos caminos que llegan a $H$ en la tercera etapa, el más probable es el que viene de $C$, por tanto descartamos el camino $H-H-H$.


+ De los dos caminos que llegan a $C$ en la tercera etapa, el más probable es el que proviene de $C$ en la segunda. Descartamos el camino $H-H-C$.


+ Las dos observaciones anteriores hacen que descartemos el estado $H$ en la segunda etapa. Esto no es trivial, pues si hubiésemos detenido el proceso en dicha etapa, el último estado más probable hubiera sido $H$!


+ Los dos posibles caminos son
    + $H-C-H$ con una probabilidad de 0.001728
    + $H-C-C$ con una probabilidad de 0.0161
    
    
El último estado es el de mayor verosimilitud: $H-C-C$.

:::{figure-md} markdown-fig.4.05.6
<img src="./images/hmm6.png" width="600px">

Viterbi
:::