Los investigadores de Nvidia han logrado un gran salto en la destreza robótica gracias a eurekaun agente de inteligencia artificial que supuestamente puede enseñar a los robots habilidades complejas, como trucos para hacer girar un bolígrafo, con tanta habilidad como los humanos.
La nueva técnica, descrita en un artículo publicado el jueves, se basa en avances recientes en grandes modelos de lenguaje como el GPT-4 de OpenAI. Eureka aprovecha la IA generativa para escribir de forma autónoma sofisticados algoritmos de recompensa que permiten a los robots aprender mediante aprendizaje reforzado por prueba y error. Este enfoque ha demostrado ser más de un 50% más efectivo que los programas creados por humanos, describe el artículo.
“Eureka también ha enseñado a manos diestras y cuadrúpedos, brazos de cobot y otros robots a abrir cajones, usar tijeras, atrapar pelotas y casi 30 tareas diferentes”, dice una publicación de blog oficial de Nvidia.
Eureka es la última demostración del trabajo pionero de Nvidia en el manejo de la IA con modelos de lenguaje. Recientemente, la empresa de código abierto DirecciónLM—Un método que alinea a los asistentes de IA para que sean más útiles capacitándolos con la retroalimentación humana.
Al igual que Eureka, SteerLM también utiliza avances en modelos de lenguaje, pero los enfoca en un desafío diferente: mejorar la alineación del asistente de IA. SteerLM entrena a los asistentes haciéndoles practicar conversaciones, como un robot que aprende haciendo. El sistema brinda retroalimentación sobre las respuestas del asistente a través de atributos como amabilidad, humor y calidad.
Por ejemplo, es como un robot aprendiendo a bailar a partir de videos etiquetados como buenos o malos, en lugar de que un humano revise miles de bailes aleatorios y seleccione cuáles son buenos o no (que es la forma en que se entrenan los típicos chatbots con IA). Al practicar repetidamente y recibir comentarios, los asistentes aprenden a brindar respuestas adaptadas a las necesidades del usuario. Esto ayuda a que la IA sea más beneficiosa para aplicaciones del mundo real.
El hilo conductor es el uso de redes neuronales avanzadas de formas nuevas y creativas, ya sea con robots de enseñanza o chatbots. Nvidia está superando los límites tanto en el frente del hardware como del software.
Para Eureka, la clave fue combinar tecnologías de simulación como las de Gimnasio Isaac con la destreza de reconocimiento de patrones de los modelos lingüísticos. Eureka efectivamente “aprende a aprender”, optimizando sus propios algoritmos de recompensa a lo largo de múltiples ejecuciones de entrenamiento. Incluso acepta la aportación humana para perfeccionar sus recompensas.
Este enfoque de superación personal ha demostrado ser muy generalizable hasta ahora, entrenando robots de todo tipo: con patas, con ruedas, voladores y con manos diestras.
Eureka y SteerLM de Nvidia no solo están rompiendo barreras, sino que también están enseñando a los robots y a la IA el arte de la interacción sutil y perspicaz. Con cada giro de un bolígrafo y una charla ingeniosa, están esbozando un futuro en el que la IA no solo nos imita, sino que innova junto a nosotros.