La actualización 3.0 de Stable Diffusion perfecciona (casi) la tipografía en sus imágenes

Por qué es importante: La generación de imágenes mediante IA está dejando atrás el valle inquietante. La IA de estabilidad está avanzando rápidamente, haciendo que las imágenes falsas sean realmente indistinguibles de la realidad con su último proyecto. Sin embargo, a medida que rivales como Dall-E y Midjourney también mejoran sus capacidades, es evidente que no se trata sólo de lograr el texto más claro; se trata de liderar la próxima ola de innovación en IA.

Stability AI está tentando a los entusiastas del arte de la IA con una vista previa de su modelo de conversión de texto a imagen de próxima generación, Stable Diffusion 3.0. La startup ha abierto una lista de espera para el acceso temprano al sistema de inteligencia artificial actualizado, que promete imágenes más nítidas, un manejo mejorado de múltiples temas y una representación de texto significativamente mejorada.

La tipografía ha sido durante mucho tiempo un talón de Aquiles para los modelos de generación de imágenes de IA como Stable Diffusion, incluso cuando se han vuelto casi indistinguibles de la realidad en otros aspectos. Sin embargo, Stability AI afirma que la nueva edición 3.0 ofrecerá una mejora sustancial en la representación de texto legible y garantizará una ortografía precisa en las imágenes generadas.

Uno ejemplo Destacado en el comunicado de prensa nos llamó especialmente la atención: la imagen de un autobús urbano que parece prácticamente imposible de distinguir de una fotografía real, con una reproducción impecable del texto en la señal de tráfico y en el lateral del vehículo. Si bien todavía hay pequeñas imperfecciones (la matrícula parece distorsionada), la calidad general representa un salto cualitativo con respecto a los predecesores del modelo.

Puede que esto no suene sorprendente si se tiene en cuenta que, bajo el capó, Stable Diffusion 3.0 representa una importante revisión arquitectónica de sus predecesores. Emplea un nuevo enfoque de «transformador de difusión», similar al reciente de OpenAI. hermana modelo – una marcada desviación de la arquitectura Stable Diffusion original, según el CEO de Stability AI, Emad Mostaque, quien habló con VentureBeat.

Stable Diffusion 3.0 también integra otras técnicas de vanguardia como la «coincidencia de flujo», un método novedoso para entrenar sistemas de inteligencia artificial para modelar mejor distribuciones de datos complejas. Los investigadores detrás de la coincidencia de flujo afirman que permite un entrenamiento más rápido, un muestreo más eficiente y un rendimiento general mejorado en comparación con los métodos de difusión tradicionales.

El conjunto de modelos renovado abarcará un rango de 800 millones a 8 mil millones de parámetros cuando finalmente se lance por completo. Pero antes de ese lanzamiento público, Stability AI está poniendo a prueba el modelo con una vista previa cerrada para recopilar comentarios y fortalecer las barreras de seguridad. La startup ha implementado numerosas medidas de seguridad para esta versión preliminar, y hay más en desarrollo a través de la colaboración con investigadores, expertos y, por supuesto, su propia comunidad.

Sin embargo, las ambiciones de estabilidad de la IA no terminan aquí. Mostaque ha insinuado que el nuevo modelo Stable Diffusion sustentará el próximo trabajo de la compañía en modelado 3D, síntesis de video y otras capacidades visuales novedosas de IA.

Los interesados pueden inscribirse en el lista de espera.

Enlace fuente