Costes e incentivos desde Procesos de Decisión de Markov (y 2)

Considerar unos costes desatinados o fijar unos incentivos del mismo estilo puede llevar a situaciones imprevistas, fuera de lo que podríamos considerar el razonamiento del común de los mortales. Este post es la continuación de otro publicado la semana pasada con el mismo tema. Si no lo has leído puedes hacerlo aquí. Te recomendamos especialmente que mires y comprendas el apartado ‘Reglas de juego’. Ponemos las figuras del tablero y de los movimientos de una casilla a modo de recordatorio.

Tablero para el desarrolloMovimientos desde una celda

Lo que vamos a analizar

En el presente post vamos a ver cuál sería la política a aplicar en el caso que tengamos unos costos de operación muy altos en relación con el incentivo esperado. 

Después veremos cuál es la política a seguir cuando al consumir algo incurrimos en unos los costos negativos, o lo que es lo mismo, que obtenemos un beneficio por cada movimiento.

El segundo de los estudios puede parecer un ejercicio teórico sin aplicación práctica alguna. Cuando reflexionaba sobre esta situación se me vino a la cabeza algo que me ocurrió hace muchos años. Gestionaba un proyecto que en general cada actividad tenía asociados unos costes positivos normales. Sin embargo la visión subjetiva de las diferentes personas que participaban en el mismo no coincidía con el enfoque global. Pero de esto hablaremos en otro post que publicaremos metidos ya en período estival. 

Resultado

Costos de operación muy elevados (40 unidades por actuación)

No puedo evitar hacer spoiling: el suicidio forma parte de la ‘política óptima’.

Esta ‘política óptima’ partiendo de la casilla A4 puede verse en la figura 3. Veamos los puntos destacables.

politica 40
Figura 3

Podría pensarse que la mejor opción para el primer movimiento es moverse hacia la derecha para intentar seguir por la ‘senda segura’ que ofrece la columna C. Si hacemos unos números veremos que aún yendo todo bien y sin deslizarnos en ningún momento fuera del la ruta predeterminada necesitaremos 5 movimientos para llegar a la casilla C1 donde nos espera un premio de 100 unidades. Esto supone que en el mejor de los casos la travesía se saldará con unas pérdidas de 100 unidades. Lo primero que vemos es que no hay lugar para el beneficio.

No es extraño encontrarnos con situaciones en las que hagamos lo que hagamos siempre tenemos pérdidas, con lo que al final hay que aplicar las políticas menos lesivas, todas ellas con resultados negativos. La crisis del COVID-19 es un buen ejemplo: hundir la economía versus arriesgar la salud. 

Sin embargo, cuando vemos la solución ‘optima’ que ofrece el algoritmo es salir directamente de la casilla A4 rumbo a la B1, o sea dirigirse directamente al suicidio sin tan siquiera intentar alcanzar la casilla C1. Si hacemos unos números veremos que la probabilidad de llegar en sólo 5 movimientos desde la casilla de salida a la del premio es inferior a un tercio, luego las esperanza matemática de las pérdidas es bastante superior a 100 unidades. 

Para llegar directamente al suicidio se necesitan sólo 4 pasos, y la probablidad de conseguirlo con ese número de intentos es del 40 % aproximadamente. La verdad es que, mirando al tablero no resulta muy intuitivo atisbar esa política como la mejor, pero las matemáticas que son totalmente frías y ecuánimes demuestran que esa es la alternativa con menor costo. 

Me puedo imaginar a un científico de datos frente una gruesa audiencia aconsejando el ‘suicidio’ ante esta situación en lugar de intentar la ruta aparentemente más segura de la columna ‘C’. El podrá ir cargado de algoritmos, teorías y buenos ordenadores… ¡¡¡tiene asegurada la incomprensión y la crítica ácida (aunque sea en el bar) de muchos que tienen más de ‘aprendices de brujo’ que de científicos de datos!!!

Con todo lo anterior ya no nos puede extrañar el comportamiento ‘optimo’ en la casilla A1. Empotrado en una esquina quiere terminar el juego ‘ipso facto’ cayendo en la casilla B1 antes que intentar un rodeo hasta poder alcanzar la ‘tierra prometida’ que supone la casilla C1. 

Parece ser que la política general es acabar con la partida lo antes posible. Cualquier movimiento adicional tiene una probabilidad de pérdidas mayor que lo que puede suponer lograr el premio.

Coste negativo (ver figura 4)
Política con coste negativo
Figura 4

El algoritmo se corrió utilizando una ganancia por movimiento de 4.0  unidades, pero cualquier otra cantidad que suponga un coste negativo arrojaría el mismo resultado

Aquí la política óptima (volvemos a hacer spoiler) es más intuitiva: hacer todo lo que se pueda para no terminar el juego nunca. Cuanto más tiempo estemos dando vueltas más ingresos tenemos.

Nuevamente destacamos un par de cuestiones:

La primera es que la política de las casillas A1, B2 y C2 va encaminada a asegurarse que nunca se cae en en las casillas que finalizar el recorrido puesto que esto sería el fin de unas ganancias perpetuas.

Lo otro que podemos observar es que en el caso de las casillas en las que cualquier movimiento no suponen riesgo de finalización del juego la política de queda indefinida. Nos da lo mismo hacia donde vayamos. Una vez que tenemos asegurado el no acabar nunca no nos importa hacia dónde dirigirnos. 

Procesos estáticos

Tanto en los casos analizados en el post anterior como en el presente se ha asumido que los procesos son estáticos, y por lo tanto no cambian los incentivos ni los costos con el tiempo. También nos hemos olvidado que una recompensa inmediata puede valorarse mejor que la que se producen mucho tiempo después.

Así en el caso segundo que analizamos una vez que estamos en la casilla C2 podría ser tentador intentar llegar a la C1 y ganarse 104 unidades del tirón en lugar de tener que esperar 25 movimientos más para obtener el mismo beneficio aunque luego este pueda seguir creciendo de forma indefinida.

Mutemos el ejemplo y pensemos en término de años y de un beneficio anual de 1 unidad en lugar de 4 como en nuestro ejemplo. ¿Qué preferimos 101 unidades de beneficio esta año o esperar 101 años para tener un beneficio de 102 unidades y a partir de ahí 1 más cada año? Seguro que se nos viene a la cabeza aquello que ‘En 100 años, todos calvos’

En el mundo real, por una parte, los incentivos no suelen ser estáticos y por otra, se tiende a valorar más la satisfacción a corto plazo frente al largo. 

Reconocimiento

Tanto el ejemplo presente como los resultados de aplicar el algoritmo basado en los procesos de decisión de Markov son originales de IA Grafos y los hemos obtenido del vídeo 161 de la serie “Descubriendo la Inteligencia Artificial” en YouTube

Javier Gonzalez