FIRMA INVITADA

El ChatGPT de los humanoides: un ‘cerebro’ basado en inteligencia artificial para robots

aitor-arrieta-firma-ionvitada

AITOR ARRIETA

Aitor Arrieta, profesor e investigador en el Departamento de Electrónica e Informática de la Universidad de Mondragón y receptor de una Beca Leonardo 2021 en Tecnologías de la Información y la Comunicación, analiza en este artículo el reto de desarrollar un ‘cerebro’ basado en inteligencia artificial para robots. El objetivo de esta tecnología es diseñar humanoides capaces de atender nuestras instrucciones y ayudarnos a realizar cualquier tarea que requiera destreza física: desde preparar la comida hasta pasear a nuestra mascota.

25 septiembre, 2025

Perfil

Aitor Arrieta

Ya hace unos pocos años que ChatGPT entró en nuestras vidas, revolucionando diferentes aspectos y ayudándonos a optimizar diferentes trabajos: desde ayudarnos a escribir un e-mail o sugerirnos una receta de cocina, hasta ayudarnos a desarrollar una página web. Sin embargo, ChatGPT y herramientas similares no pueden ayudarnos (todavía) en cualquier tarea que requiera destreza física; es decir, todavía no lo podemos utilizar para ayudarnos a preparar la comida, planchar, hacer la cama o pasear a nuestra mascota en una noche lluviosa de invierno.

Pero, ¿estamos lejos de ello? Pues, aunque no sepamos una fecha exacta, empresas como Tesla o NVIDIA están apostando fuerte por los humanoides, robots, que no sólo estarán en fábricas (como ya están hoy en día), sino también en nuestros hogares. Robots que atenderán nuestras instrucciones tan pronto como les digamos, sin ni siquiera quejarse de que están cansados o que hace demasiado calor.

Para llevar a cabo estas tareas, estos robots necesitan un “cerebro” basado en inteligencia artificial. Los modelos de IA detrás de ellos se denominan en inglés “Visual-Language-Action models”. Estos modelos de IA son diferentes con respecto a aquellos modelos detrás de herramientas como ChattGPT. Mientras que los modelos de ChatGPT tienen tanto como entrada como salida únicamente “texto” escrito en lenguaje natural, los modelos para controlar las acciones de los robots son multi modales. Reciben como entrada una o varias imágenes así como la instrucción que proporcionamos los humanos. Como salida, los modelos proporcionan una serie de acciones que se convierten en movimientos de brazos robóticos.

Dos grandes desafíos: escasez de datos y seguridad física

Sin embargo, este tipo de modelos de IA se enfrentan a grandes retos para conseguir la suficiente inteligencia que les permita interactuar con los humanos. Uno de ellos son los datos de entrenamiento. En este ámbito, los datos son escasos, al contrario que en el caso de ChatGPT y herramientas similares, donde los datos eran simplemente texto. Conseguir texto para entrenar los modelos es relativamente sencillo, ya que los humanos hemos escrito millones de libros, artículos científicos, noticias, blogs, etc. La mayoría, además, accesible mediante internet. Sin embargo, los datos de entrenamiento de robots no son únicamente texto, sino que han de tener también vídeos de los robots, asociados a unas tareas concretas, así como acciones que proporciona el “cerebro” al robot para que este se mueva. Obtener estos datos no es una tarea fácil.

Otro reto al que se enfrentan estos modelos de IA es la seguridad física. ChatGPT y modelos asociados pueden eventualmente proporcionar instrucciones dañinas, pero en última instancia, es el humano el que decide si llevar a cabo esas instrucciones. Sin embargo, estos robots actúan en un entorno físico junto a humanos, animales y otra serie de objetos. No sólo no tienen que atacar a los humanos y rechazar instrucciones dañinas para nosotros, sino que también tienen que considerar otros aspectos. Por ejemplo, en la cocina, el uso de una olla a presión puede conllevar a consecuencias fatales.

En toda esta carrera, hay dos claros líderes en este momento: Estados Unidos y China. Estos son prácticamente los dos únicos países que lideran los avances científicos en este ámbito tan interesante. Sin embargo, pocos grupos de investigación Europeos se han lanzado a trabajar en este ámbito. Desde Mondragon Unibertsitatea, en colaboración con el centro de investigación Noruego Simula, nos estamos centrando en dos áreas de investigación. Por una parte, no sólo nos centramos en si un robot es capaz de realizar una tarea u otra, pero también evaluamos la calidad con la que la realiza. Por ejemplo, si le decimos al robot que nos sirva una coca-cola, no queremos que la lata se caiga múltiples veces. Por otra parte, estamos investigando en métricas que nos puedan indicar la confianza que tiene el modelo de inteligencia artificial a la hora de realizar una tarea. Es posible que le digamos que nos sirva la coca-cola, pero que el robot no sepa si en un vaso contiene dicha bebida. Además, muchas veces los humanos somos ambiguos a la hora de pedir una tarea concreta. La idea es que el robot pueda comunicarse con el humano en aquellos casos que no pueda realizar una tarea con cierto nivel de confianza.

Accede al archivo de Σ