Abróchense el cinturón, damas y caballeros, tenemos un nuevo generador de imágenes de IA en la ciudad y es sorprendentemente bueno.
Sorprende porque viene de Google y porque no es el generador básico, algo feo y vago que estás acostumbrado a ver en Bard. También está oculto al público en general, pero eso no significa que no puedas usarlo.
Su nombre es ImageFX y es la última incursión de Google en el ámbito de la generación de imágenes mediante IA. Está disponible a través de AI Test Kitchen de Google, una plataforma experimental que permite a los usuarios interactuar con los proyectos de Google mientras aún están en desarrollo.
A pesar de estar en su fase beta inicial, ImageFX proporciona resultados sorprendentes en términos de precisión y fotorrealismo. Sin embargo, su disponibilidad se limita a regiones específicas, a saber, EE. UU., Kenia, Nueva Zelanda y Australia, y su uso está restringido al inglés, lo que demuestra el enfoque cauteloso de Google y su deseo de un entorno controlado para la retroalimentación de los usuarios y mejoras del sistema.
Aquellos que viven fuera de las regiones permitidas podrían eludir las restricciones geográficas con métodos como VPN o servidores proxy, bajo su propio riesgo.
El motor de ImageFX es Imagen 2, un sofisticado modelo de IA desarrollado por el reconocido laboratorio de IA de Google, DeepMind. Imagen 2 está diseñado para interpretar y visualizar indicaciones textuales, y cuenta con capacidades para producir diversas imágenes y estilos. Google afirma que Imagen 2 establece un nuevo estándar de calidad de imagen entre su generación de modelos de IA.
La introducción de ImageFX es parte de la estrategia más amplia de Google para explorar diversas facetas de la inteligencia artificial generativa. Se une a un conjunto de herramientas especializadas, que incluyen MusicFX para la creación de música y TextFX para la generación de texto estilizado.
Google frente a Dall-e 3 frente a MidJourney
ImageFX de Google marca una entrada notable en el ámbito de los generadores de imágenes impulsados por IA, compitiendo directamente con jugadores establecidos como Dall-E 3 y MidJourney. Una ventaja distintiva para ImageFX en su fase beta inicial es su acceso gratuito, que difiere de la integración de Dall-E con ChatGPT a una tarifa mensual de $20, y la suscripción anual de MidJourney cercana a los $100.
Si bien la rentabilidad es un factor importante, son las características comparativas y la calidad de los resultados lo que distingue a estas herramientas. ImageFX sobresale en la producción de imágenes hiperrealistas, superando las interpretaciones algo caricaturescas de Dall-E 3 y el enfoque de MidJourney en imágenes estéticamente atractivas.
Pero sólo porque ImageFX sea gratuito no significa que sea malo. ImageFX ofrece características únicas como el control de semillas, lo que permite a los usuarios ajustar con precisión el proceso creativo ajustando la configuración de ruido inicial. Este nivel de control no tiene comparación con Dall-E 3 o MidJourney, lo que permite a los usuarios realizar ajustes sutiles manteniendo los elementos centrales de la imagen.
Además, ImageFX puede resaltar palabras clave y sugerir alternativas creativas, una característica que no está disponible en sus competidores.
Sin embargo, ImageFX tiene sus limitaciones. La herramienta genera exclusivamente imágenes cuadradas, mientras que Dall-E 3 y MidJourney brindan flexibilidad en las relaciones de aspecto. Además, a diferencia de MidJourney, ImageFX no admite funciones de edición de imágenes como inpaint y outpaint, lo que limita su versatilidad. Finalmente, la característica conversacional de Dall-E 3, que permite a los principiantes instruir al modelo en lenguaje natural, contrasta con las indicaciones basadas en palabras clave que requieren ImageFX y MidJourney.
El enfoque de las indicaciones también difiere significativamente entre estos modelos. ImageFX no admite mensajes negativos, lo que permite a los usuarios especificar qué excluir de la imagen. MidJourney ofrece esta funcionalidad, añadiendo una capa de precisión al proceso creativo. Dall-E 3 también carece de indicaciones negativas directas, pero su interfaz conversacional permite a los usuarios guiar el modelo indirectamente, ofreciendo un enfoque diferente para refinar las salidas de imágenes.
Una imagen vale más que mil palabras
Descifrar Obtuve acceso a ImageFX y pude comparar sus generaciones con MidJourney y Dall-E 3. Usamos el mismo mensaje para todos los modelos y los resultados a continuación siempre se presentan en el mismo orden de izquierda a derecha: primero es ImageFX, segundo es MidJourney , y el tercero es Dall-E 3.
Fotorrealismo:
Aviso: Foto de un comerciante de criptomonedas con expresión preocupada
Tanto ImageFX como MirJourney generaron resultados bastante realistas. Sin embargo, en términos de estilo, ImageFX parece fotorrealista mientras que MidJourney parece un poco más Híper realistaes decir, el primero es más realista mientras que el segundo es más artístico, con colores saturados, bokeh exagerado, etc.
Dalle-3 no puede generar fotografías. En su lugar, creó un renderizado 3D que se centra más en el contenido. Es más fácil decir que se trataba de un comerciante de criptomonedas debido a los gráficos de fondo, pero definitivamente no era una foto.
Ilustraciones:
Mensaje: Ilustración de un oso misterioso surfeando una ola cibernética
Este mensaje fue un poco más abstracto para probar cómo los modelos interpretan ideas no estándar. ImageFX y MidJourney generaron las imágenes más agradables desde el punto de vista estético, pero MidJourney parece más un render que una ilustración e ImageFX intentó capturar la esencia de lo que podría ser una onda cibernética. En cambio, MidJourney asoció el término “cibernético” al oso. Dall-e 3 capturó la esencia más de cerca. Obviamente era una ilustración, y se asemeja a la estética cibernética, pero la morfología del oso es incorrecta y la imagen carece de calidad frente a sus competidores.
Lenguaje natural largo:
Aviso: fotografía de ciencia ficción muy detallada en primer plano de un misterioso experto en informática trabajando en una computadora portátil. Detrás de él, un agente del FBI espera para capturarlo en un plano fotorrealista intrincado.
Para realizar esta comparación, el mensaje de MidJourney se cambió a “fotografía de ciencia ficción muy detallada en primer plano de un misterioso experto en informática trabajando en una computadora portátil con un agente del FBI detrás de él esperando capturarlo, plano amplio, fotorrealista, intrincado”.
MidJourney se negó a generar imágenes en el primer mensaje.
ImageFX genera una fotografía bonita y detallada respetando todos los detalles. MidJourney no generó un experto en informática “misterioso”. También mantiene su estilo característico con un bokeh excesivo y estelas de luz o gotas de lluvia que llaman la atención sobre las diferentes generaciones. Este era el mejor ejemplo, ya que el resto parecía representar a un astronauta, un marine ciberpunk o algo similar. Dall-E genera una imagen en la que todos los elementos del mensaje son reconocibles (el logo del FBI, el misterioso experto en informática, etc.), pero no es una foto y la anatomía del hacker es errónea, con los típicos dedos de espagueti. .
Texto en imagen:
Aviso: una ciudad futurista con un letrero de neón que dice “EMERGE by Decrypt”
Generalmente, el mejor generador de texto es con diferencia Dall-e 3, sin embargo, en este caso concreto y bajo las condiciones marcadas por la metodología de comparación, no escribió correctamente el texto. ImageFX no pudo generar la frase completa; sus capacidades de generación de texto están ahí, pero probablemente sean las menos impresionantes del grupo.
Dicho esto, Dall-E e ImageFX fueron los mejores a la hora de capturar la esencia de lo que es una ciudad futurista, mientras que MidJourney generó una ciudad estéticamente agradable, pero no futurista en absoluto.
Conclusión
Los aficionados a la IA ahora cuentan con una gran cantidad de modelos de IA que satisfacen muchas necesidades. Dado que la mayoría se ofrece de forma gratuita, no es necesario elegir ganadores: cada uno tiene un caso de uso específico que lo hace destacar.
ImageFX es el mejor de los tres si no quieres gastar dinero. También es el mejor en términos de fotorrealismo.
MidJourney no es bueno para respetar las indicaciones, pero es perfecto para quienes buscan imágenes estéticamente agradables.
Dall-E 3 es el mejor para principiantes que desean generar renderizados y ni siquiera quieren pensar en ingeniería rápida, palabras clave y parámetros y, en cambio, solo quieren hablar con su IA como si fuera un amigo más.
Pero sí, si quieres una conclusión, nos gustó mucho ImageFX.
Editado por Ryan Ozawa.