Le 27 janvier 2025, la startup chinoise DeepSeek a annoncé le lancement de Janus-Pro-7B, un modèle d’intelligence artificielle multimodal avancé. Ce modèle open source est conçu pour comprendre et générer du contenu à la fois textuel et visuel.
Caractéristiques techniques
Doté de 7 milliards de paramètres, Janus-Pro-7B est basé sur l’architecture DeepSeek-LLM-7b-base. Pour la compréhension multimodale, il intègre l’encodeur visuel SigLIP-L, capable de traiter des images de 384 x 384 pixels. Pour la génération d’images, il utilise un tokenizer avec un taux de sous-échantillonnage de 16.
Performances
Selon des benchmarks indépendants, Janus-Pro-7B surpasse des modèles établis tels que DALL-E 3 et Stable Diffusion 3 en matière de génération d’images à partir de descriptions textuelles. Ces résultats positionnent Janus-Pro-7B comme un leader dans le domaine de la génération d’images assistée par IA.

Engagement open source
DeepSeek a choisi de rendre Janus-Pro-7B open source, permettant ainsi aux chercheurs et développeurs du monde entier d’accéder au code source et aux modèles via leur page GitHub. Cette initiative vise à accélérer la recherche et l’innovation en intelligence artificielle en favorisant la collaboration au sein de la communauté scientifique.
Perspectives
Avec le lancement de Janus-Pro-7B, DeepSeek démontre sa capacité à rivaliser avec les géants de l’IA tels qu’OpenAI. Le modèle offre des applications potentielles dans divers domaines, comme la robotique avancée, la génération automatisée de contenu visuel et l’amélioration des interactions homme-machine. L’engagement de DeepSeek envers l’open source pourrait également démocratiser l’accès aux technologies d’IA de pointe, stimulant ainsi l’innovation à l’échelle mondiale.

Janus-Pro-7B représente donc une avancée significative dans le domaine de l’intelligence artificielle multimodale, combinant compréhension et génération de contenu textuel et visuel avec une efficacité remarquable.