Estudiantes y Aprendizaje Reforzado (y 2)

Seguimos intentando comprender el comportamiento de los jóvenes estudiantes, y en vez de utilizar la sicología nos hemos decantado por enfocarlo desde la perspectiva de la inteligencia artificial.

En el post anterior (ver aquí) pusimos “en suerte” el planteamiento del problema, en el presente vamos a seguir analizando algunas asuntos adicionales.

La cuestión de las probabilidades

En el juego del tablero que vimos analizando las estrategias con modelos de decisión de Markov cuando intentábamos realizar un movimiento asumimos que teníamos un 80 % de probabilidad de ir en la dirección deseada y un 10 % de deslizarnos hacia un lado o hacia el otro. ¿De dónde salieron esos valores? Aunque no puedo asegurarlo dado que estudio fue diseñado por terceros tal y como se indica en el apartado de reconocimientos, me imagino que se tomaron así por motivos didácticos y para que los resultados que se obtenía con los diferentes costos con los que se hizo el análisis fuesen clarificadores.

Biblioteca llena

Sin embargo cuando hablamos de aprendizaje reforzado una de las cosas que no estarán muy claras son la probabilidades de que suceda algo. Los modelos de aprendizaje reforzado lo que hacen es probar y probar… una y mil veces, o una y millones de veces… hasta que al menos se obtenga una buena aproximación a la probabilidad real.

Nuestros estudiantes lo son porque se asume que aprenden algo que no saben. Aunque se puede considerar que tienen bastantes oportunidades de aprobar pudiéndose presentar a examen en sus convocatorias con pruebas parciales durante el curso para luego disponer otras a finales en junio, julio, o septiembre, estas ocasiones distan mucho de las empleadas en los algoritmos de aprendizaje reforzado.

Más vale pájaro en mano..

Un tema que ya adelantamos en un post anterior era el referente a que los premios cercanos se valoran más que los lejanos, ocurre lo mismo con los costes. Multitud de financieras viven de nuestro deseo de tener cosas ¡ya! (premio inmediato) a costa de estar unos cuantos meses o años pagando cuotas mensuales (coste diferido).

Existen muchos algoritmos que incorporan un parámetro (con valor entre cero y uno) con el objeto de actualizar el beneficio futuro. Lo habitual es que al coste o beneficio futuro se multiplique por este parámetro elevado al valor del número de períodos que distan del actual. Cuantos más períodos hay de por medio más se acerca a cero ese parámetro.

Premios variables

Hemos comentado que los diferentes individuos buscan el equilibrio entre el esfuerzo a realizar y la probabilidad de aprobar el examen. Cada persona se siente satisfecho con un determinado nivel de probabilidad, y en consecuencia cada uno establecerá el esfuerzo que es capaz de realizar para mejorar en un punto la probabilidad del aprobado. Cada punto adicional supone un esfuerzo superior al que se necesitaba para lograr el anterior.

Estanterías repletas de libros

Un hermano mío estudió su carrera fuera de casa. Se alojó en un colegio mayor. En dicho colegio había estudiantes de diferentes carreras y cursando diferentes cursos. También se alojaban opositores, personas que preferían estar lejos de las tentaciones de sus hogares y se recluían allí.

Me contaba mi hermano que a los estudiantes se podía ver deambular por las instalaciones del colegio con más o menos intensidad según la época del curso. A los opositores no se les veían nunca, si acaso a la hora de comer y de forma efímera.

No es lo mismo sacar un examen de una asignatura de una carrera, con las múltiples oportunidades que se tienen durante el curso en incluso en los siguientes cursos, aunque sea con la marca de “repetidor”, que una oposición para notario que como mucho se convoca una vez al año. Se paga mucho más por un punto de probabilidad adicional de éxito en el segundo caso que en el primero.

Costes variables

Es la simulación de los post anteriores el costo se suponía constante, aunque se hicieron simulaciones con valores diferentes de los mismos. Cuando hablamos de costes variables en el caso de los estudiantes tenemos que tener en cuenta dos aspectos. 

Por una parte hay que considerar que una hora de estudio no tiene el mismo provecho cuando tenemos el examen a 4 meses vista que si sólo tenemos por delante un par de días, sobre todo si la materia incluye partes importantes que simplemente hay que memorizar. 

La otra vertiente, aunque es similar a la que vimos de los beneficios y costes diferido, tiene un matiz diferente y es la visión subjetiva de los mismos. Un coste futuro se ve como una carga más asumible que otro que tenemos que realizar sobre la marcha. Todos pensamos que mi yo de dentro de una semana estará mucho más presto al estudio que el yo de hoy. Sea para estudiar o sea para seguir un plan de adelgazamiento en el futuro siempre se está más dispuestos que en el presente.

En la época estudiantil se hace una valoración optimista de las probabilidades porque saben que el yo de hoy tiene muchas ganas de juerga pero somos personas maduras (¡ejem!) y el lunes de seguro que nos ponemos a estudiar como jabatos… ¡¡palabra de chic@ seri@!! (aunque la decisión se tome con con un par de cervezas de más)

Este también sería un ajuste a tener en cuenta en el algoritmo.

Con todo lo visto ¿alguien se atreve a diseñar un modelo bien completito?

Javier Gonzalez