DeepSeek lanza su propio generador de imágenes por IA para tumbar ahora a Midjourney y las de Microsoft, Google o X

DeepSeek, la empresa china responsable del ‘chatbot’ del mismo nombre que ha desbancado a ChatGPT en la App Store, ha lanzado Janus Pro, un nuevo modelo de generación de imágenes que mejora la comprensión multimodal y la estabilidad de la generación de imagen a texto para ofrecer resultados «altamente realistas» y con detalle pese a su baja resolución.

En su base se encuentra el modelo de lenguaje visual DeepSeek VL2, con 4.500 millones de parámetros activados. Según la compañía, «logra un rendimiento competitivo o de última generación con parámetros activados similares o menores en comparación con los modelos densos y basados en MoE de código abierto existentes».

En concreto, en comprensión multimodal, sus creadores aseguran que supera a , algo que atribuyen a «la disociación de la codificación visual para la comprensión y la generación multimodales, que mitiga el conflicto entre estas dos tareas».

DeepSeek también destaca la calidad de los resultados: imágenes «altamente realistas» que contienen gran detalle pese a la resolución de , si bien esta baja resolución es todavía una limitación del modelo.

DeepSeek se ha popularizado este lunes después de que su ‘chatbot, del mismo nombre, alcanzara el primer puesto en las descargas de aplicaciones gratuitas en la App Store. En su base se encuentra el DeepSeek V3, que ha sido entrenado con 2.048 GPU Nvidia H800 y un coste de 5,6 millones de dólares y ofrece un rendimiento similar o superior al de modelos de vanguardia, como Claude 3.5 Sonnet, Llama 3.1 40B y GPT 4o.

La firma china lanzó recientemente otra familia de modelos de razonamiento, DeepSeek-R1-Zero y DeepSeek-R1. Este último, y según la compañía, con capacidad para alcanzar «un rendimiento en tareas de razonamiento comparable a OpenAI o1».