Virginia Ahedo1, José Ignacio Santos1, José Manuel Galán1 and Luis R. Izquierdo1
a Universidad de Burgos, Departamento de Ingeniería de Organización, Escuela Politécnica Superior, Ed. A1, Avda. Cantabria s/n 09006, Spain.
vahedo@ubu.es, jisantos@ubu.es, jmgalan@ubu.es, lrizquierdo@ubu.es
Keywords: Kaggle, gamificación, competición, ciencia de las redes, predicción de enlaces.
“The purpose of teaching is to inspire the desire for learning in (students) and make them able to think, understand, and question” (Richard Feynman). Esta frase del físico teórico Richard Feynman, premio nobel y excelente profesor, resume nuestra vocación como docentes. Pensar, comprender y preguntar son sin duda actitudes que tratamos de inculcar a nuestros estudiantes, promoviendo a su vez que desarrollen el deseo por aprender. Para conseguir este último objetivo, existen múltiples técnicas y metodologías. De entre ellas, en los últimos años se ha popularizado especialmente la “gamificación”, que consiste en utilizar elementos propios de las mecánicas de los juegos en contextos diferentes al juego [1], como por ejemplo, en la enseñanza. El trabajo que describimos en este artículo se inscribe claramente en la corriente de gamificación. Concretamente, hemos diseñado una competición “InClass” en Kaggle para una asignatura del Grado en Ingeniería Informática de la Universidad de Burgos que aborda el estudio de la ciencia de las redes [2] y la hemos publicado en www.kaggle.com/c/link-prediction-for-social-networks. Nuestro objetivo es simple, proponer una tarea competitiva sobre la predicción de enlaces que promueva el interés por el estudio de la ciencia de las redes.
Una competición en Kaggle propone siempre un problema de aprendizaje supervisado en el que se debe predecir (problema de regresión o clasificación) el valor de una variable a partir de un conjunto conocido de variables regresoras o características. El reto consiste en diseñar modelos de aprendizaje que obtengan los mejores rendimientos (de acuerdo con diferentes métricas de selección de modelos). Si bien la ciencia de redes no suele contener este tipo de problemas, sí existe un caso, el de la predicción de enlaces, que puede formularse en términos de aprendizaje supervisado y que, por ello, encaja perfectamente en el perfil de una competición Kaggle. Generalmente, una red es una representación imperfecta de la topología de las interacciones entre sus constituyentes. En redes sociales, la imperfección suele originarse en la utilización de datos incompletos para formalizar la red, lo que ocasiona que relaciones existentes entre individuos no aparezcan representadas por el correspondiente enlace. Vamos a definir un problema de predicción de enlaces de la siguiente manera. Supondremos una red G = {N,L} formada por un conjunto fijo de nodos N y un conjunto de enlaces L de tamaño l, para la que queremos predecir m enlaces ausentes de entre los [latex]{N \choose 2}[/latex] – l posibles enlaces que conforman el conjunto complemento LC. Para resolver este problema de predicción existen diferentes estrategias que el alumno deberá aprender para participar en la competición.
Kaggle dispone de un asistente para crear competiciones “InClass” y también ofrece una guía de configuración [3]. En nuestro caso, proponemos una red social de usuarios que evalúan películas y que hemos construido a partir de los datos de la web de recomendaciones movielens.org que administra el grupo de investigación GroupLens del departamento de Ciencias de la Computación e Ingeniería de la Universidad de Minnesota. GroupLens ha recogido los datos de valoración de un conjunto de películas, además de información demográfica de los usuarios [4]. La tabla de calificaciones puede representarse como una red pesada bipartita en la que los usuarios tienen un enlace con cada una de las películas que han valorado, siendo el peso del enlace la calificación (1-5) de la película. Posteriormente, hemos proyectado la red bipartita sobre los usuarios, obteniendo una red unimodal pesada de usuarios en la que existe un enlace entre dos usuarios si ambos han calificado al menos una misma película, siendo el peso del enlace el número de películas evaluadas por ambos. Además, hemos completado la información demográfica de los usuarios (edad, género, ocupación y código postal) con información sobre las preferencias de cada uno. Puesto que cada película está clasificada en uno o más géneros (acción, aventuras, animación, infantil, comedia, crimen, etc.) resulta sencillo calcular para cada usuario el número de películas vistas de cada género. Estos metadatos de los nodos ofrecen la posibilidad de explorar modelos de predicción sofisticados que permitan mezclar técnicas de aprendizaje automático junto con técnicas de la ciencia de las redes.
Agradecimientos Los autores agradecen la financiación del Ministerio de Ciencia e Innovación español (RED2018‐102518‐T), del Ministerio de Economía, Industria y Competitividad (HAR2017-90883-REDC), de la Agencia Española de Investigación (PID2020-118906GB-I00/AEI/10.13039/501100011033) y de la Junta de Castilla y León – Consejería de Educación (BDNS 425389).
Referencias
- S. Deterding, M. Sicart, L. Nacke, K. O’Hara, y D. Dixon, «Gamification. using game-design elements in non-gaming contexts», en CHI’11 extended abstracts on human factors in computing systems, 2011, pp. 2425-2428.
- A.-L. Barabási y M. Pósfai, Network Science. Cambridge, United Kingdom, 2016.
- «Kaggle Competitions». https://www.kaggle.com/c/about/inclass (accedido mar. 02, 2021).
- F. M. Harper y J. A. Konstan, «The movielens datasets: History and context», Acm Trans. Interact. Intell. Syst. Tiis, vol. 5, n.o 4, pp. 1-19, 2015.