Publié le 30/08/2025

Step 3 le nouveau modèle de Stepfun : Open Source et prometteur

L’IA open source fait un pas de géant avec Step 3, le nouveau modèle de Stepfun. Avec 321 milliards de paramètres et une architecture innovante, il se positionne comme un concurrent sérieux aux modèles propriétaires. Découvrez ce qui rend ce modèle si spécial et pourquoi il fait tant parler.

Un modèle à la pointe de l’IA open source

Stepfun dévoile Step 3, un modèle multimodal de 321B de paramètres, conçu pour rivaliser avec les meilleures IA du marché. Contrairement à GPT-4 ou Gemini, il est entièrement open source. Cela signifie que tout le monde peut l’utiliser, l’étudier et le modifier librement.

Une architecture innovante : Mixture-of-Experts

Step 3 utilise une architecture Mixture-of-Experts (MoE), une approche déjà éprouvée sur des modèles comme Mixtral, Claude ou certaines versions de GPT. Sur ses 321B de paramètres, seuls 38B sont activés à chaque inférence (prompt).
Ce choix technique réduit les coûts de calcul tout en conservant une puissance exceptionnelle. Ce qui rend Step 3 particulièrement remarquable, c’est de proposer une telle architecture MoE à cette échelle en open source, combinée à des optimisations poussées pour la rendre plus accessible que bien des modèles propriétaires équivalents.

MoE : comment ça marche ?

Dans une architecture MoE, seuls certains "experts" sont activés selon la tâche à traiter. Cela évite de mobiliser toute la puissance du modèle pour chaque requête. Résultat : une efficacité accrue et une meilleure gestion des ressources.

Voir notre article de vulgarisation sur le concept de Mixture of Experts

Des performances impressionnantes

Step 3 excelle dans de nombreuses tâches complexes :

Raisonnement visuel : il comprend et interprète les images avec précision.
Résolution de problèmes : mathématiques, logique, programmation.
Multimodalité : il traite aussi bien du texte que des images.

Il surpasse de nombreux modèles open source et rivalise avec les modèles propriétaires sur des benchmarks comme MMMU ou MATH-Vision.

Les performances de step 3 au test AIME25 — En rouge, Step 3 se distingue par un score AIME25 élevé (82.9) tout en restant open source, là où la plupart des meilleurs modèles (Gemini, o3, Grok) sont propriétaires.

Une efficacité optimisée

Grâce à des innovations comme le Multi-Matrix Factorization Attention (MFA) et l’Attention-FFN Disaggregation (AFD), Step 3 réduit les coûts de décodage. Il ne nécessite que 22 % du coût d’attention de DeepSeek V3 par exemple. Un atout majeur pour son adoption à grande échelle.

Des économies d'énergie et de calcul

Ces optimisations techniques permettent à Step 3 de tourner sur huit GPU de 48 Go. Il peut traiter des contextes jusqu’à 800 000 tokens. Une performance qui le rend accessible à plus d’utilisateurs et d’entreprises.

Un modèle multimodal avancé

Step 3 comprend aussi bien du texte que des images. Son encodeur visuel, basé sur Eva-CLIP 5B, analyse les images avec précision. Il les comprime avant de les fusionner avec les tokens textuels. Une approche qui le rend polyvalent et adapté à de nombreuses applications.

Pourquoi l’open source est un avantage

En rendant Step 3 open source, Stepfun favorise l’innovation collective. Les chercheurs et développeurs peuvent l’étudier et l’améliorer. C’est un choix stratégique pour démocratiser l’IA.

Sources

Step3: Cost-Effective Multimodal Intelligence - StepFun
Présentation officielle du modèle.
stepfun-ai/Step3 - GitHub
Code source du modèle.
Step-3 is Large yet Affordable: Model-system Co-design for Cost ... - arXiv
Article scientifique détaillant l’architecture.

Qu’est-ce que le modèle Step 3 de Stepfun ?

Step 3 est un modèle IA multimodal open source développé par Stepfun, avec 321B de paramètres. Il utilise une architecture Mixture-of-Experts et excelle dans des tâches de raisonnement visuel et textuel.

Pourquoi le modèle Step 3 est-il open Source ?

Stepfun a choisi de rendre le modèle Step 3 open source pour favoriser l’innovation collective et permettre à tous de l’utiliser et de l’améliorer.

Quelles sont les performances du modèle Step 3 ?

Le modèle Step 3 surpasse de nombreux modèles open source et rivalise avec les modèles propriétaires sur des benchmarks comme MMMU ou MATH-Vision.

Comment utiliser le modèle Step 3 ?

Le code source du modèle Step 3 est disponible sur GitHub. Il peut être déployé sur huit GPU de 48 Go et traiter jusqu’à 800 000 tokens.

Pourquoi le modèle Step 3 est-il considéré comme prometteur ?

Le modèle Step 3 est considéré comme prometteur car il combine puissance, efficacité et open source. Il représente une avancée majeure pour l’IA accessible et performante.

Step 3 le nouveau modèle de Stepfun : Open Source et prometteur

Un modèle à la pointe de l’IA open source

Une architecture innovante : Mixture-of-Experts

MoE : comment ça marche ?

Des performances impressionnantes

Une efficacité optimisée

Des économies d'énergie et de calcul

Un modèle multimodal avancé

Pourquoi l’open source est un avantage

Sources

Sur le même sujet

GPT OSS : OpenAI comprend que l'avenir de l'IA sera open ou ne sera pas

GLM‑4.5 : l’IA chinoise qui vient défier les géants américains

Qu’est-ce que Mistral AI ?

Cohere : Le canadien qui mise sur l'IA pour les entreprises

Qu’est-ce que Hugging Face ?

L'architecture "Mixture of Experts" (MoE) expliquée simplement

Un modèle à la pointe de l’IA open source

Une architecture innovante : Mixture-of-Experts

MoE : comment ça marche ?

Des performances impressionnantes

Une efficacité optimisée

Des économies d'énergie et de calcul

Un modèle multimodal avancé

Pourquoi l’open source est un avantage

Sources

Sur le même sujet

GPT OSS : OpenAI comprend que l'avenir de l'IA sera open ou ne sera pas

GLM‑4.5 : l’IA chinoise qui vient défier les géants américains

Qu’est-ce que Mistral AI ?

Cohere : Le canadien qui mise sur l'IA pour les entreprises

Qu’est-ce que Hugging Face ?

L'architecture "Mixture of Experts" (MoE) expliquée simplement

GLM‑4.5 : l’IA chinoise qui vient défier les géants américains