El gigante chino Alibaba también lanza su IA y dice que es superior a Deepseek

Alibaba Cloud ha anunciado un nuevo modelo de Inteligencia Artificial (IA) denominado Qwen2.5-VL, que se incluye en su familia de modelos de lenguaje grande (LLM) multimodales Qwen y que puede analizar documentos, comprender vídeos de larga duración y ejecutar tareas de forma autónoma en ‘smartphones’ y ordenadores.

La compañía tecnológica china ha aprovechado el interés que está generando el asistente DeepSeek, lanzado por la compañía homónima y también de origen chino, para presentar un modelo de lenguaje que reúne capacidades similares a este ‘chatbot’ gratuito. Además, según reporta Reuters, su modelo supera al de su competidor chino y el de otros países, como ChatGPT. «Qwen 2.5-Max supera… casi en todos los aspectos a GPT-4o, DeepSeek-V3 y Llama-3.1-405B», dijo Alibaba en un anuncio publicado en su cuenta oficial de WeChat.

El joven prodigio de la ingeniería presenta una alternativa que desafía a los modelos internacionales pese a la escasez de recursos

También ha mejorado significativamente sus capacidades generales de reconocimiento de imágenes, ampliando su clasificación a diferentes categorías, productos, objetos y escenarios, como plantas, animales, monumentos o ríos, así como capturas de películas y series de televisión.

Asimismo, se puede utilizar para obtener una precisión mejorada de coordenadas absolutas y formatos pensados para el intercambio de datos Javacript Object Notation (JSON), que sirve como base para ejecutar un razonamiento espacial avanzado. En ese caso, puede detectar cuántas motos hay en una carretera, dónde se sitúan y si los conductores llevan casco, entre otras opciones.

Los desarrolladores han avanzado otras actualizaciones de la arquitectura del modelo, como que este modelo no solo convierte imágenes de diferentes tamaños en tokens de longitudes variables de forma dinámica, sino que también representa coordenadas como puntos de detección empleando la escala de tamaño real a la imagen.

Esto, en la denominada dimensión espacial. En la temporal, se han introducido tanto el entrenamiento dinámico de fotogramas por segundo (fps) como la codificación de tiempo absoluto. Gracias a ello, el modelo puede aprender una secuencia y su velocidad, así como identificar momentos específicos de un vídeo. Por otra parte, se ha mejorado la velocidad de entrenamiento y de la inferencia, al implementar la arquitectura del transformador de visión (ViT) de forma nativa.

Finalmente, han señalado que, «en un futuro cercano», mejorarán las capacidades de razonamiento y resolución del problemas del modelo, al tiempo que incorporarán más modalidades. Gracias a esto, Qwen25-VL será «más inteligente» y les permitirá llegar a un modelo completo que les permita manejar «múltiples tipos de entradas y tareas».

El equipo de desarrollo de Qwen ha puesto el modelo base Qwen2.5-VL a disposición de los desarrolladores y adaptado a tres tamaños (3B, 7B y 72B) para cubrir sus necesidades. Se puede obtener a través de Hugging Face y ModelScope.