Estudiantes y Aprendizaje Reforzado

Al leer el título a la cabeza de alguno le vendrá aquello que “La letra con sangre entra”, pero no, vamos a hablar de Inteligencia Artificial e intentar entender a los jóvenes estudiantes… por ejemplo, a mi yo de hace muchos años.

El día a día y el día del examen

Mi hijo pequeño es, y ha sido siempre, un chico muy estudioso y disciplinado. Lo primero que hacía al llegar del cole en su día y ahora del insti son los deberes. Luego estudia las materias que se han visto durante la jornada. Aún así el día antes del examen no puede evitar el pegar un último apretón.

Yo no fui tan responsable como lo es mi vástago. Un examen lejano, era un examen lejano y una buena juerga cercana era una buena juerga cercana. Puestos así, mi dedicación al estudio era inversamente proporcional al tiempo que faltaba para que llegase el temido día en que se ponían a prueba nuestros conocimientos, que en su mayoría se habían hilvanado recientemente.

Hubo un tiempo en que me sentía mal por actuar así. ¡¡Una lástima!! Si me hubiesen explicado eso de los procesos de decisión de Markov y el Aprendizaje Reforzado me hubiese sentido mucho mejor conmigo mismo. 

La estrategia del estudiante cuasi adulto

Durante este post hablaré como si los estudiantes sólo tuviesen que enfrentarse a un examen aunque la realidad indica que lo que suele haber es una “época de exámenes” durante la cual se celebran unos cuantos. Tampoco todas las personas actuamos de mismo modo, pero para simplificar el razonamiento todos los educandos caerán en el mismo saco, ¡más o menos!

A lo largo de las siguientes líneas nos referiremos en más de una ocasión a otros dos publicaciones recientemente, para ver el último puede pulsar aquí, y para ver el anterior aquí.

Panorámica de una biblioteca

El objetivo operativo de un estudiante en realidad no es obtener un aprobado, lo que intenta es encontrar un nivel adecuado de esfuerzo acorde con unas probabilidades razonables de salir airoso de la prueba. Su esfuerzo de verdad está dirigido a disfrutar de la vida.

En no pocas ocasiones se da la circunstancia que el día anterior al examen o pocas fechas antes le invade la certeza que las probabilidades de superar la prueba son remotas aún con el mayor de los esfuerzos por lo que “se suicida” (latus sensus); decide no presentarse y abandona todo esfuerzo. Más o menos la estrategia que teníamos cuando sufríamos costes muy altos en el post anterior.

¿Y si diseñamos una política adecuada basada en los procedimientos de decisión de Markov?

En los artículos anteriores partíamos de un tablero con un punto de salida y dos posibles destinos. En principio uno de ellos era deseable y el otro debería ser evitado.

Conocíamos perfectamente los “costos de operación” y las probabilidades de éxito. Todo ello nos llevaba a que el proceso tuviese una solución matemática. Si se cumplen las hipótesis sabremos lo que hacer. Con costos diferentes la actuación más razonable era también diferente. Bien es verdad que una vez que seguimos esa política matemáticamente óptima en un proceso real no podemos asegurar el éxito;  sólo maximizamos la probabilidad del mismo. 

Si hablamos de procesos industriales o de la prestación de un servicio esto no es problema. El ciclo se repetirá una y otra vez, multitud de veces, y en este caso el resultado medio se parecerá muchísimo al resultado previsto. Algo debe tener que ver con la ley de los grandes números.

¿Podemos hacer lo mismo con los estudiantes? Puede que sea posible, pero veamos algunas cuestiones a tener en cuenta. En cualquier caso el algoritmo a desarrollar caería más dentro de lo que se llama aprendizaje reforzado.

Alguno estará pensando que el objetivo del estudio no es aprobar sino para aprender….ya, ya… pero eso es difícil de entender cuando se tienen 20, 18 años o peor aún si se está en los 14 ó 16. A esa edad, y hasta donde llegan los recuerdos en la práctica totalidad de los mismos está presente el estudio, que se manifiesta como una pesada obligación. El placer de estudiar con el único objetivo de aumentar tus conocimientos no suele llegar hasta los 30 o los 40 años. Algunas personas deberán que esperar a la próxima reencarnación para comprobar si en una segunda oportunidad le cogen el gusto a eso de estar entre libros y apuntes.

Un acercamiento al problema

El libro de la sabiduría

En este post no vamos a presentar una solución matemática al problema ni un modelo para llegar a la solución. Para ello sería necesario plantear diseñar una red neuronal y aún así tengo mis dudas sobre la posibilidad de darle un buen entrenamiento, al menos a un costo razonable. En lo que resta de post y en el próximo ‘surfearemos’ sobre algunas cuestiones a tener en cuenta para realizar una hipotética simulación del comportamiento de los estudiantes..

Logística

En los procesos de decisión de Markov hay que definir los estados, las acciones que se pueden llevar a cabo, la probabilidad de alcanzar otro estado en función de la acción llevadas a cabo y los beneficios o los costos de realizar cada acción. En el juego propuesto en las publicaciones anteriores el tema era sencillo, cada estado se identificaba con una casilla. Las acciones eran los movimientos que intentábamos, independientemente del resultado obtenido, teníamos definidas unas probabilidades de movernos a otra casilla en función de la decisión tomada y también los costes y beneficios estaban definidos. 

En nuestro caso la acción no puede ser estudiar o no estudiar. No es lo mismo estudiar 5 horas en un día que dedicar 30 minutos. Nuestra acción es una variable.

En la próxima publicación se expondrá otras cuestiones a tener en cuenta para realizar un modelo.

Javier Gonzalez