
Zhipu AI prévoit-il d'intégrer la génération d'image à Z.ai ?
Zhipu AI s'est imposé comme un acteur important de l'intelligence artificielle en Chine avec ses modèles GLM. Alors que la plateforme Z.ai gagne en popularité, une question demeure : pourquoi les capacités de génération d'images de l'entreprise ne sont-elles pas intégrées à cette plateforme ? Analysons la situation actuelle et les perspectives d'évolution possibles.
L'écosystème fragmenté de Zhipu AI
Zhipu AI propose actuellement deux écosystèmes distincts pour ses modèles. D'un côté, la plateforme Z.ai (lancée en avril 2025) sert de portail pour les modèles de langage comme le GLM-4.6. De l'autre, les modèles de génération d'images sont accessibles principalement via l'application mobile chinoise "智谱清言" (ChatGLM) et des API dédiées pour les développeurs.
Cette séparation peut sembler étonnante, d'autant plus que les modèles d'images de Zhipu AI, notamment CogView3 et CogView3-Plus, affichent des performances remarquables. En évaluation humaine, CogView3 surpasse même le populaire modèle SDXL avec un taux de préférence de 77%, tout en étant jusqu'à 10 fois plus rapide en termes de génération.
CogView3 : un modèle de génération d'images performant
Les modèles CogView de Zhipu AI représentent une avancée significative dans le domaine de la génération d'images. CogView3 utilise une approche innovante de diffusion en cascade qui génère des images en trois étapes :
1. Génération d'une image basse résolution (512×512)
2. Amélioration via diffusion relais (1024×1024)
3. Finalisation en haute résolution (2048×2048)
Cette méthode permet non seulement d'obtenir des images de grande qualité, mais aussi de réduire considérablement les temps de génération.
Les raisons derrière cette séparation stratégique
Plusieurs facteurs peuvent expliquer pourquoi Zhipu AI a choisi de maintenir ses modèles d'images séparés de la plateforme Z.ai :
- Expérience utilisateur spécialisée : La génération d'images bénéficie d'une interface utilisateur spécifique, différente de celle nécessaire pour les interactions textuelles. L'application mobile "智谱清言" offre une expérience optimisée pour la création visuelle.
- Publics cibles distincts : Z.ai semble positionnée comme une plateforme plus technique pour les développeurs et les passionnés d'IA, tandis que l'application mobile cible un public plus large pour des usages créatifs quotidiens.
- Déploiement progressif : L'écosystème de Zhipu AI est encore en construction. L'entreprise adopte une approche par étapes, testant séparément chaque composant avant de les intégrer dans une plateforme unifiée.
Perspectives d'intégration future
Bien que rien n'ait été officiellement annoncé, plusieurs indices suggèrent que l'intégration des capacités de génération d'images dans Z.ai est probable à terme :
- Convergence technologique : Les modèles multimodaux comme GLM-4V démontrent que Zhipu AI maîtrise déjà l'intégration texte-image, une étape préliminaire à une plateforme unifiée.
- Demande du marché : Les utilisateurs attendent des solutions tout-en-un, et la concurrence (comme OpenAI avec DALL-E intégré à ChatGPT) pousse dans cette direction.
- Évolution naturelle : La tendance générale du secteur est vers des plateformes plus complètes, intégrant texte, image et potentiellement d'autres modalités.
Une intégration progressive pourrait commencer par des API unifiées pour les développeurs (comme c'est le cas avec la plateforme bigmodels), suivies d'une interface web unifiée pour tous les utilisateurs.
Défis techniques et stratégiques
Zhipu AI fait face à plusieurs défis techniques et stratégiques :
- Ressources : La génération d'images nécessite des ressources importantes, et une intégration à grande échelle demanderait des investissements en infrastructure.
- Interface utilisateur : Concevoir une interface qui gère efficacement à la fois les interactions textuelles et la création visuelle est complexe.
- Monétisation : Zhipu AI devra développer un modèle économique qui équilibre l'accès gratuit et les fonctionnalités premium pour les différents types de génération.
- Concurrence : Le marché de la génération d'images est déjà très compétitif, avec des acteurs comme Gemini, OpenAI ou Midjourney.
Conclusion
Zhipu AI se trouve actuellement dans une position intéressante avec des modèles de génération d'images performants mais séparés de sa plateforme principale Z.ai. Cette situation reflète une stratégie de déploiement par étapes plutôt qu'une limitation technique.
À terme, il est probable que nous assistions à une convergence de ces écosystèmes, offrant aux utilisateurs une expérience plus unifiée. Les capacités techniques sont clairement présentes, comme le démontrent les modèles CogView3 et GLM-4V. Il s'agit maintenant d'une question de timing et de stratégie commerciale.
Pour les utilisateurs intéressés par les capacités de Zhipu AI en matière de génération d'images, l'application mobile "智谱清言" (disponible en chinois) reste actuellement la meilleure option, tandis que Z.ai continue d'exceller dans le domaine du traitement du langage naturel.
Sources
- 智谱开源文生图模型CogView3-Plus,相关功能上线智谱清言App : Annonce de l'open-sourcing de CogView3-Plus et son intégration dans l'application mobile "智谱清言".
- CogView3: Finer and Faster Text-to-Image Generation via Relay Diffusion : Article scientifique décrivant l'architecture et les performances du modèle CogView3.
Puis-je générer des images sur la plateforme Z.ai actuellement ?
Non, actuellement la plateforme Z.ai est axée sur les modèles de langage. Pour générer des images avec les modèles de Zhipu AI, vous devez utiliser l'application mobile "智谱清言" ou les API dédiées pour les développeurs.
Quelles sont les performances des modèles de génération d'images de Zhipu AI ?
Les modèles CogView3 et CogView3-Plus offrent des performances excellentes. En évaluation humaine, CogView3 surpasse SDXL avec un taux de préférence de 77%, tout en étant jusqu'à 10 fois plus rapide en termes de génération d'images.
Zhipu AI prévoit-il d'intégrer la génération d'images à Z.ai ?
Bien qu'aucune annonce officielle n'ait été faite, il est probable que Zhipu AI intègre progressivement ses capacités de génération d'images à Z.ai à l'avenir, suivant la tendance du marché vers des plateformes multimodales unifiées.
Comment accéder aux modèles de génération d'images de Zhipu AI ?
Vous pouvez accéder à ces modèles via l'application mobile "智谱清言" (ChatGLM) disponible sur les stores d'applications. Les développeurs peuvent également utiliser les API mises à disposition par Zhipu AI pour intégrer ces modèles dans leurs propres applications.





