
Step 3 le nouveau modèle de Stepfun : Open Source et prometteur
L’IA open source fait un pas de géant avec Step 3, le nouveau modèle de Stepfun. Avec 321 milliards de paramètres et une architecture innovante, il se positionne comme un concurrent sérieux aux modèles propriétaires. Découvrez ce qui rend ce modèle si spécial et pourquoi il fait tant parler.
Un modèle à la pointe de l’IA open source
Stepfun dévoile Step 3, un modèle multimodal de 321B de paramètres, conçu pour rivaliser avec les meilleures IA du marché. Contrairement à GPT-4 ou Gemini, il est entièrement open source. Cela signifie que tout le monde peut l’utiliser, l’étudier et le modifier librement.
Une architecture innovante : Mixture-of-Experts
Step 3 utilise une architecture Mixture-of-Experts (MoE), une approche déjà éprouvée sur des modèles comme Mixtral, Claude ou certaines versions de GPT. Sur ses 321B de paramètres, seuls 38B sont activés à chaque inférence (prompt).
Ce choix technique réduit les coûts de calcul tout en conservant une puissance exceptionnelle. Ce qui rend Step 3 particulièrement remarquable, c’est de proposer une telle architecture MoE à cette échelle en open source, combinée à des optimisations poussées pour la rendre plus accessible que bien des modèles propriétaires équivalents.
MoE : comment ça marche ?
Dans une architecture MoE, seuls certains "experts" sont activés selon la tâche à traiter. Cela évite de mobiliser toute la puissance du modèle pour chaque requête. Résultat : une efficacité accrue et une meilleure gestion des ressources.
Des performances impressionnantes
Step 3 excelle dans de nombreuses tâches complexes :
- Raisonnement visuel : il comprend et interprète les images avec précision.
- Résolution de problèmes : mathématiques, logique, programmation.
- Multimodalité : il traite aussi bien du texte que des images.
Il surpasse de nombreux modèles open source et rivalise avec les modèles propriétaires sur des benchmarks comme MMMU ou MATH-Vision.

Une efficacité optimisée
Grâce à des innovations comme le Multi-Matrix Factorization Attention (MFA) et l’Attention-FFN Disaggregation (AFD), Step 3 réduit les coûts de décodage. Il ne nécessite que 22 % du coût d’attention de DeepSeek V3 par exemple. Un atout majeur pour son adoption à grande échelle.
Des économies d'énergie et de calcul
Ces optimisations techniques permettent à Step 3 de tourner sur huit GPU de 48 Go. Il peut traiter des contextes jusqu’à 800 000 tokens. Une performance qui le rend accessible à plus d’utilisateurs et d’entreprises.
Un modèle multimodal avancé
Step 3 comprend aussi bien du texte que des images. Son encodeur visuel, basé sur Eva-CLIP 5B, analyse les images avec précision. Il les comprime avant de les fusionner avec les tokens textuels. Une approche qui le rend polyvalent et adapté à de nombreuses applications.
Pourquoi l’open source est un avantage
En rendant Step 3 open source, Stepfun favorise l’innovation collective. Les chercheurs et développeurs peuvent l’étudier et l’améliorer. C’est un choix stratégique pour démocratiser l’IA.
Sources
- Step3: Cost-Effective Multimodal Intelligence - StepFun
Présentation officielle du modèle. - stepfun-ai/Step3 - GitHub
Code source du modèle. - Step-3 is Large yet Affordable: Model-system Co-design for Cost ... - arXiv
Article scientifique détaillant l’architecture.
Qu’est-ce que le modèle Step 3 de Stepfun ?
Step 3 est un modèle IA multimodal open source développé par Stepfun, avec 321B de paramètres. Il utilise une architecture Mixture-of-Experts et excelle dans des tâches de raisonnement visuel et textuel.
Pourquoi le modèle Step 3 est-il open Source ?
Stepfun a choisi de rendre le modèle Step 3 open source pour favoriser l’innovation collective et permettre à tous de l’utiliser et de l’améliorer.
Quelles sont les performances du modèle Step 3 ?
Le modèle Step 3 surpasse de nombreux modèles open source et rivalise avec les modèles propriétaires sur des benchmarks comme MMMU ou MATH-Vision.
Comment utiliser le modèle Step 3 ?
Le code source du modèle Step 3 est disponible sur GitHub. Il peut être déployé sur huit GPU de 48 Go et traiter jusqu’à 800 000 tokens.
Pourquoi le modèle Step 3 est-il considéré comme prometteur ?
Le modèle Step 3 est considéré comme prometteur car il combine puissance, efficacité et open source. Il représente une avancée majeure pour l’IA accessible et performante.