Google sorprendió al mundo de la tecnología el miércoles con el debut de Gemini, su conjunto de herramientas de inteligencia artificial multimodal orientadas a consumidores y empresas.
Entre los gigantes tecnológicos que impulsan agresivamente la IA, el titán de las búsquedas Google parecía estar nadando en el espacio intermedio, mientras OpenAI, respaldado por Microsoft, llevó ChatGPT a Turbo y Vision y Anthropic actualizaron a Claude. A partir de hoy, Google sale disparado con tres versiones de Gemini (Nano, Pro y Ultra) que comprenden e integran perfectamente texto, imágenes, audio y vídeo.
Gemini parece preparado para superar a los modelos de inteligencia artificial de primera línea de OpenAI, que acaba de publicar una larga lista de nuevas capacidades pero que poco después quedó sepultada en intrigas corporativas.
La versión más avanzada, Gemini Ultra, obtuvo resultados sólidos en varios puntos de referencia populares, igualando o superando el rendimiento humano en algunos casos. Por ejemplo, estableció nuevos récords en 30 de 32 puntos de referencia en el examen MMLU, que abarca una variedad de materias académicas.
Una característica clave de Gemini es su entrenamiento “nativo multimodal”, que le permite procesar múltiples tipos de datos como texto, imágenes y audio como entradas y salidas. Este enfoque significa que el modelo se construyó y entrenó desde cero para comprender diferentes entradas, en lugar del resultado de reunir modos y módulos discretos más adelante.
Las IA multimodales más populares de la actualidad siguen esta última hoja de ruta. Por ejemplo, ChatGPT combina GPT-4 Turbo con Dall-E 3 para procesar texto para generar imágenes, GPT-4 Vision para procesar imágenes y un módulo de codificación especial para cálculos. Como resultado, el LLM queda relegado al papel de coordinador entre diferentes modelos de IA que no pueden comprender de forma independiente la naturaleza completa de un problema específico.
Esta limitación también puede generar vulnerabilidades como la inyección rápida. Por ejemplo, técnicas para eludir los controles de seguridad establecidos para indicaciones de texto escribiéndolas o imprimiéndolas en una hoja de papel, tomando una fotografía y pidiendo al módulo visual que la procese.
Por el contrario, las primeras evaluaciones cualitativas de Géminis revelan su notable capacidad para realizar razonamientos intermodales. Por ejemplo, en entornos educativos, Géminis puede comprender problemas complejos de física, convertirlos en fórmulas matemáticas y proporcionar soluciones correctas. Esta capacidad abre caminos transformadores en la educación y en otros campos.
Los LLM tradicionales no suelen ser muy buenos en matemáticas, por lo que las capacidades de razonamiento de la familia Gemini de LLM multimodales merecen cierta atención.
En otra prueba de referencia centrada en la comprensión del lenguaje multimodal, Gemini Ultra logró más del 90 % de precisión, superando a otros modelos existentes. Google afirma que las pruebas de preferencia humana también mostraron una clara preferencia por Gemini sobre modelos como PaLM 2 en áreas como la escritura creativa.
El servicio más pequeño, Gemini Nano, está diseñado para brindar eficiencia en el dispositivo, sobresaliendo en resúmenes, comprensión de lectura y diversas tareas de razonamiento. A pesar de su tamaño más pequeño, Gemini Nano muestra un rendimiento notable en comparación con el modelo Gemini Pro más grande. Esto significa que Gemini podría convertirse en la IA preferida para impulsar asistentes móviles que pueden o deben trabajar sin conexión.
Géminis parece un debut muy fuerte, desde cualquier punto de vista. Y a medida que mejoren las capacidades de inteligencia artificial de Google, su versatilidad podría permitir nuevas aplicaciones en muchos dominios. Por ahora, sin embargo, se necesitan más pruebas en el mundo real para determinar sus niveles de rendimiento realistas.
Los usuarios pueden probar una versión mejorada de Gemini Pro hoy con Bard. Gemini Ultra se lanzará el próximo año en una nueva versión del chatbot de Google llamada Bard Advanced. En última instancia, Google espera lanzar Gemini en más de 170 idiomas diferentes y utilizar la tecnología para impulsar su línea de píxeles y la experiencia generativa de búsqueda.