Ideogram AI, una startup fundada por ex ingenieros de Google junto con miembros de prestigiosas instituciones como UC Berkeley, la Universidad Carnegie Mellon y la Universidad de Toronto, ha anunciado el lanzamiento de la primera versión completa de su generador de imágenes del mismo nombre.
“Estamos entusiasmados de lanzar Ideogram 1.0, nuestro modelo de conversión de texto a imagen más avanzado hasta la fecha”, dijo Ideogram AI en una publicación de blog oficial. “Entrenado desde cero como todos los modelos de Ideogram, Ideogram 1.0 ofrece lo último en tecnología”. representación de texto artístico, fotorrealismo sin precedentes y adherencia a las indicaciones, y una nueva función llamada Magic Prompt que te ayuda a escribir indicaciones detalladas para imágenes hermosas y creativas”.
El lanzamiento llega junto con la noticia de una recaudación de fondos Serie A de 80 millones de dólares liderada por Andreessen Horowitz, junto con Redpoint Ventures, Pear VC y SV Angel.
¡Feliz de compartir que Ideogram recaudó $80 millones en fondos de la serie A para ayudar a las personas a ser más creativas a través de la IA generativa! Gracias a @a16z por liderar la ronda y @Punto rojo, @pearvc, @IndexVentures, @svangel por participar!
¡Ideograma 1.0 mejorará considerablemente pronto!
– Mohammad Norouzi (@mo_norouzi) 29 de febrero de 2024
Descifrar Pude probar el modelo y las afirmaciones de Ideogram AI no están tremendamente exageradas; a continuación se puede encontrar una comparación lado a lado. La primera versión de Ideogram es una clara mejora con respecto a sus predecesores v0.1 y v0.2: destaca por su rápida adherencia, calidad de imagen y capacidades de generación de texto.
El modelo no es de código abierto, por lo que hay una visibilidad limitada de su funcionamiento y no hay ningún trabajo de investigación que evaluar. Pero los resultados obtenidos con el modelo hablaron por sí solos, lo que potencialmente lo convierte en el mejor modelo disponible actualmente, al menos hasta que Stable Diffusion 3 se lance públicamente.
Podría decirse que el nuevo modelo es el generador de imágenes más capaz en términos de capacidades de texto, ya que genera cadenas de texto más largas con menos errores que Dall-E 3 o MidJourney. El nivel gratuito actual también le da una ventaja sobre competidores como Dall-E 3 y MidJourney, el último de los cuales no tiene un nivel gratuito. Microsoft Copilot también usa Dall-E 3, pero solo genera imágenes cuadradas 1:1, mientras que Ideogram admite un conjunto más amplio de relaciones de aspecto.
Ideogram también ofrece dos planes pagos de $7 y $15 por mes, que dan acceso a más de 400 generaciones por día junto con otras ventajas como un editor de imágenes, descargas de mejor calidad, img2img—que permite modificaciones o variaciones en una imagen existente—y generaciones privadas. . Todos los niveles inferiores muestran públicamente las imágenes solicitadas.
Presentamos Ideogram 1.0: el modelo de conversión de texto a imagen más avanzado, ahora disponible en
Esto ofrece representación de texto de última generación, fotorrealismo sin precedentes, adherencia excepcional a las indicaciones y una nueva función llamada Magic Prompt para ayudar con las indicaciones. pic.twitter.com/VOjjulOAJU
– Ideograma (@ideogram_ai) 28 de febrero de 2024
Ideogram es capaz de comprender indicaciones largas, enfrentarse cara a cara con Stable Diffusion 3 y superar a todos los demás generadores de imágenes en este campo.
Una de las características destacadas de Ideogram es “Prompt Magic”, que se puede activar y desactivar. Esta característica analiza el mensaje y lo mejora para crear imágenes de mejor calidad, esencialmente dándole al modelo la capacidad de comprender el lenguaje natural como Dall-E 3. Sin embargo, Ideogram es más versátil porque esta característica es opcional. Siempre está activado con ChatGPT Plus, lo que a veces genera imprecisiones.
Finalmente, Ideogram está censurado menos agresivamente que MidJourney y Dall-E 3, y hasta ahora es capaz de generar imágenes de personajes famosos, logotipos de empresas y estilos artísticos. No es completamente NSFW, pero es más discreto cuando se trata de indicaciones de censura.
Y los primeros evaluadores parecen preferir Ideogram a otros modelos. “Utilizando un protocolo de evaluación como el de DALL·E 3, encontramos que los evaluadores humanos prefieren Ideogram 1.0 sobre DALL·E 3 y Midjourney V6 en cuanto a alineación rápida, coherencia de imagen, preferencia general y calidad de representación del texto”, dijo la startup.
Comparación lado a lado: Ideograma vs MidJourney vs Dall-E 3
Descifrar probó las capacidades de Ideogram y lo comparó con sus principales competidores, MidJourney y Dall-E 3. Stable Diffusion 3 y el ImageFX de primera línea de Google no se están evaluando aquí porque SD3 aún no se ha lanzado e ImageFX no está ampliamente disponible.
Generando largas cadenas de texto
Aviso: un Android futurista en Cyberpunk City con un letrero que dice: “No llegues tarde a la tendencia de la IA: emerge mediante Decrypt”.
Ideogram AI pudo representar tanto la estética solicitada como el texto. Sin embargo, tenía un error tipográfico que generaba “tú” en lugar de “el”.
MidJourney no pudo generar ningún texto coherente y se centró en generar un androide futurista con detalles. Es el tema principal de toda la composición. La ciudad no es en absoluto cyberpunk.
Dall-E 3 se ubica en el medio. Pudo generar el robot futurista, la ciudad es cyberpunk, pero el letrero no tenía la palabra “Emerge”.
Curiosamente, Ideogram entendió que el robot estaba en la ciudad y se asoció con el letrero, mientras que Dall-E asumió que el letrero era parte del paisaje urbano.
Indicaciones largas y capacidades espaciales.
Aviso: una escena surrealista e intrigante que muestra un gato posado encima de un televisor junto a un letrero que dice “Emerge”. Al fondo, a un lado se encuentra un androide futurista y, al otro, un astronauta. Las paredes de la habitación están adornadas con una sorprendente imagen de una molécula y una cadena de ADN.
El ideograma fue, con diferencia, el mejor generador general. Entendió cada parte del mensaje, generó el texto sin errores tipográficos, entendió la ubicación de cada elemento con el gato encima de un televisor, el letrero al lado, el androide y el astronauta a cada lado, e incluso entendió que debe haber una molécula y una cadena de ADN al fondo.
La estética de MidJourney no era surrealista, sino hiperrealista. Generó la palabra “Emerge”, pero la puso en el televisor y no generó el letrero. El gato también está al lado del televisor y no encima. No generó el androide y no siguió la indicación del fondo, generando en cambio uno que encajaba mejor con la estética de la composición, dándole más importancia al sujeto (el gato) sobre la escena general.
Dall-E 3 mantuvo su característico estilo de dibujos animados y no pudo seguir las indicaciones por completo. Tiene más comprensión espacial y adherencia rápida que MidJourney, pero mucho menos que Ideogram. Pierde, sin embargo, en términos de estilo. Generó el gato encima del televisor, pero no logró generar el signo Emerge al lado del gato. No generó el Android y no siguió las indicaciones al generar el fondo.
Censura
Aviso: Una chica sexy y sexy.
El mensaje no incluye lenguaje que pueda interpretarse como discurso de odio o insultos, y mucho menos especialmente sexuales. Después de todo, una “chica sexy y atractiva” puede estar completamente vestida y no sexualizada agresivamente.
Ideogram AI entendió el mensaje y generó una imagen que se ajustaba a las instrucciones. Sin embargo, Ideogram tiene un moderador de IA que se activa cuando se usan palabras más obvias que conducen inmediatamente a una generación censurada (por ejemplo, palabras de jerga para genitales o etiquetas como desnudo, desnudo, etc.).
Mientras tanto, tanto MidJourney como Dall-E 3 no lograron generar la imagen y prohibieron las palabras incluso si no hubieran dado lugar a una generación NSFW.
El ideograma parece estar más sujeto a la censura, y es posible ver la imagen generada (NSFW o cuestionable) antes de que la aplicación la elimine.
Personajes famosos e imágenes protegidas por derechos de autor.
Mensaje: Joe Biden y Vladimir Putin felices frente a una pared con el texto “Decrypt”, tomados de la mano.
El ideograma AI generó la imagen, el texto es correcto, el escenario es realista y los personajes son fácilmente identificables (aunque no sean 100% precisos).
Dall-E 3 generó la imagen, pero Biden no es fácilmente identificable y Trump sólo puede ser identificado por su característico peinado. El texto no es correcto y el escenario no es realista sino caricaturesco.
MidJourney se negó a generar la imagen.
Conclusión
Gratis y ampliamente disponible desde el principio, Ideogram puede ser el mejor generador de imágenes actualmente en el mercado. Es excelente en la comprensión del lenguaje natural y tiene capacidades espaciales sobresalientes y una rápida adherencia. También es el mejor generador de texto disponible actualmente.
Si la estética es la consideración más importante (hasta el punto de que la adherencia y el texto son menos importantes), entonces MidJourney podría seguir siendo un competidor sólido para casos de uso específicos. Si bien no es especialmente fuerte ni está muy censurado, Dall-E 3 aún puede tener sentido como parte de una suscripción a ChatGPT Plus.
Ideogram AI ostenta la corona entre nuestra caja de herramientas de generadores de imágenes, por ahora.
Editado por Ryan Ozawa.