En una floreciente escena tecnológica dominada por gigantes como OpenAI y Google, NExT-GPT, un modelo de lenguaje grande (LLM) de IA multimodal de código abierto, podría tener lo que se necesita para competir en las grandes ligas.

ChatGPT tomó al mundo por sorpresa con su capacidad para entender consultas en lenguaje natural y generar respuestas similares a las humanas. Pero a medida que la IA continúa avanzando a la velocidad del rayo, la gente ha exigido más poder. La era del texto puro ya ha terminado, y los LLM multimodales están llegando.

Desarrollado a través de una colaboración entre la Universidad Nacional de Singapur (NUS) y la Universidad de Tsinghua, NExT-GPT puede procesar y generar combinaciones de texto, imágenes, audio y video. Esto permite interacciones más naturales que los modelos de solo texto como la herramienta básica ChatGPT.

El equipo que lo creó presenta NExT-GPT como un sistema “cualquiera a cualquiera”, lo que significa que puede aceptar entradas en cualquier modalidad y entregar respuestas en la forma apropiada.

El potencial para un avance rápido es enorme. Como modelo de código abierto, NExT-GPT puede ser modificado por los usuarios para satisfacer sus necesidades específicas. Esto podría conducir a mejoras dramáticas más allá del original, al igual que lo que sucedió con Stable Diffusion frente a su lanzamiento inicial. La democratización del acceso permite a los creadores dar forma a la tecnología para lograr el máximo impacto.

Entonces, ¿cómo funciona NExT-GPT? Como se explica en el modelo Trabajo de investigación, el sistema tiene módulos separados para codificar entradas como imágenes y audio en representaciones similares al texto que el modelo de lenguaje central puede procesar.

Los investigadores introdujeron una técnica llamada “ajuste de instrucción de cambio de modalidad” para mejorar las habilidades de razonamiento intermodal: su capacidad para procesar diferentes tipos de entradas como una estructura coherente. Esta afinación enseña al modelo a cambiar sin problemas entre modalidades durante las conversaciones.

Para manejar entradas, NExT-GPT utiliza tokens únicosgustar para imágenes, audio y vídeo. Cada tipo de entrada se convierte en incrustaciones que el modelo de lenguaje entiende. El modelo de lenguaje puede generar texto de respuesta, así como tokens de señal especiales para activar la generación en otras modalidades.

Un token en la respuesta le dice al decodificador de video que produzca una salida de video correspondiente, por ejemplo. El uso del sistema de tokens personalizados para cada modalidad de entrada y salida permite una conversión flexible de cualquiera a cualquier tipo.

Luego, el modelo de lenguaje genera tokens especiales para indicar cuándo se deben generar salidas que no sean de texto, como imágenes. Diferentes decodificadores crean las salidas para cada modalidad: Difusión estable como decodificador de imágenes, AudioLDM como decodificador de audio y Zeroscope como decodificador de video. También utiliza Vicuña como LLM base e ImageBind para codificar las entradas.

NExT-GPT es esencialmente un modelo que combina el poder de diferentes IA para convertirse en una especie de súper IA todo en uno.

Captura de pantalla cortesía de: Academia AI Papers a través de YouTube

NExT-GPT logra esta conversión flexible “cualquiera a cualquiera” mientras solo entrena el 1% de los parámetros totales. El resto de los parámetros son módulos congelados y previamente entrenados, lo que ha sido elogiado por los investigadores como un diseño muy eficiente.

Un Sitio de demostración se ha configurado para permitir a las personas probar NExT-GPT, pero su disponibilidad es intermitente.

Con gigantes tecnológicos como Google y OpenAI lanzando sus propios productos de IA multimodal, NExT-GPT representa una alternativa de código abierto para que los creadores construyan. La multimodalidad es clave para las interacciones naturales. Y mediante el código abierto NExT-GPT, los investigadores están proporcionando un trampolín para que la comunidad lleve la IA al siguiente nivel.

Manténgase al tanto de las noticias criptográficas, obtenga actualizaciones diarias en su bandeja de entrada.



Fuente Traducida

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *