Step 3 de Stepfun : un modèle IA open source prometteur

Step 3 le nouveau modèle de Stepfun : Open Source et prometteur

L’IA open source fait un pas de géant avec Step 3, le nouveau modèle de Stepfun. Avec 321 milliards de paramètres et une architecture innovante, il se positionne comme un concurrent sérieux aux modèles propriétaires. Découvrez ce qui rend ce modèle si spécial et pourquoi il fait tant parler.

Un modèle à la pointe de l’IA open source

Stepfun dévoile Step 3, un modèle multimodal de 321B de paramètres, conçu pour rivaliser avec les meilleures IA du marché. Contrairement à GPT-4 ou Gemini, il est entièrement open source. Cela signifie que tout le monde peut l’utiliser, l’étudier et le modifier librement.

Une architecture innovante : Mixture-of-Experts

Step 3 utilise une architecture Mixture-of-Experts (MoE), une approche déjà éprouvée sur des modèles comme Mixtral, Claude ou certaines versions de GPT. Sur ses 321B de paramètres, seuls 38B sont activés à chaque inférence (prompt).
Ce choix technique réduit les coûts de calcul tout en conservant une puissance exceptionnelle. Ce qui rend Step 3 particulièrement remarquable, c’est de proposer une telle architecture MoE à cette échelle en open source, combinée à des optimisations poussées pour la rendre plus accessible que bien des modèles propriétaires équivalents.

MoE : comment ça marche ?

Dans une architecture MoE, seuls certains "experts" sont activés selon la tâche à traiter. Cela évite de mobiliser toute la puissance du modèle pour chaque requête. Résultat : une efficacité accrue et une meilleure gestion des ressources.

Voir notre article de vulgarisation sur le concept de Mixture of Experts

Des performances impressionnantes

Step 3 excelle dans de nombreuses tâches complexes :

  • Raisonnement visuel : il comprend et interprète les images avec précision.
  • Résolution de problèmes : mathématiques, logique, programmation.
  • Multimodalité : il traite aussi bien du texte que des images.

Il surpasse de nombreux modèles open source et rivalise avec les modèles propriétaires sur des benchmarks comme MMMU ou MATH-Vision.


Les performances de step 3 au test AIME25
En rouge, Step 3 se distingue par un score AIME25 élevé (82.9) tout en restant open source, là où la plupart des meilleurs modèles (Gemini, o3, Grok) sont propriétaires.

Une efficacité optimisée

Grâce à des innovations comme le Multi-Matrix Factorization Attention (MFA) et l’Attention-FFN Disaggregation (AFD), Step 3 réduit les coûts de décodage. Il ne nécessite que 22 % du coût d’attention de DeepSeek V3 par exemple. Un atout majeur pour son adoption à grande échelle.

Des économies d'énergie et de calcul

Ces optimisations techniques permettent à Step 3 de tourner sur huit GPU de 48 Go. Il peut traiter des contextes jusqu’à 800 000 tokens. Une performance qui le rend accessible à plus d’utilisateurs et d’entreprises.

Un modèle multimodal avancé

Step 3 comprend aussi bien du texte que des images. Son encodeur visuel, basé sur Eva-CLIP 5B, analyse les images avec précision. Il les comprime avant de les fusionner avec les tokens textuels. Une approche qui le rend polyvalent et adapté à de nombreuses applications.

Pourquoi l’open source est un avantage

En rendant Step 3 open source, Stepfun favorise l’innovation collective. Les chercheurs et développeurs peuvent l’étudier et l’améliorer. C’est un choix stratégique pour démocratiser l’IA.

Sources


Qu’est-ce que le modèle Step 3 de Stepfun ?

Step 3 est un modèle IA multimodal open source développé par Stepfun, avec 321B de paramètres. Il utilise une architecture Mixture-of-Experts et excelle dans des tâches de raisonnement visuel et textuel.

Pourquoi le modèle Step 3 est-il open Source ?

Stepfun a choisi de rendre le modèle Step 3 open source pour favoriser l’innovation collective et permettre à tous de l’utiliser et de l’améliorer.

Quelles sont les performances du modèle Step 3 ?

Le modèle Step 3 surpasse de nombreux modèles open source et rivalise avec les modèles propriétaires sur des benchmarks comme MMMU ou MATH-Vision.

Comment utiliser le modèle Step 3 ?

Le code source du modèle Step 3 est disponible sur GitHub. Il peut être déployé sur huit GPU de 48 Go et traiter jusqu’à 800 000 tokens.

Pourquoi le modèle Step 3 est-il considéré comme prometteur ?

Le modèle Step 3 est considéré comme prometteur car il combine puissance, efficacité et open source. Il représente une avancée majeure pour l’IA accessible et performante.

Sur le même sujet

openai gpt-oss
OpenAI bascule dans l'open-source

GPT OSS : OpenAI comprend que l'avenir de l'IA sera open ou ne sera pas

Dans un mouvement qui a surpris l'écosystîme de l'intelligence artificielle, OpenAI a annoncé la sortie de deux modèles open-source via la plateforme HuggingFace. Une décision qui marque un changement stratégique fondamental pour l'entreprise jusqu'ici réputée pour son approche fermée. GPT OSS n'est pas qu'une simple mise à jour technique : c'est la reconnaissance que l'avenir de l'IA sera déterminé par l'équilibre entre innovation propriétaire et collaboration ouverte.

Z.aiGLM‑4.5
GLM‑4.5 Z.ai challenger américain

GLM‑4.5 : l’IA chinoise qui vient défier les géants américains

Z.ai (anciennement Zhipu AI) a récemment dévoilé GLM‑4.5, un modèle open‑source de nouvelle génération. Conçu pour les agents intelligents, il ambitionne de rivaliser avec GPT‑4 et Claude. Cet article présente qui est derrière GLM‑4.5, ses usages concrets, et pourquoi il incarne l’outsider chinois qui monte en puissance.

mistral mistral ai
Logo Mistral AI sur fond bleu

Qu’est-ce que Mistral AI ?

Mistral AI est une startup française qui veut jouer dans la cour des grands de l’intelligence artificielle. À travers une approche radicalement ouverte et des modèles performants comme Mistral 7B ou Mixtral, elle ambitionne de concurrencer les géants comme OpenAI ou Meta. Mais que fait vraiment Mistral AI, et pourquoi tout le monde en parle ?

Cohere Modèle
Cohere l'IA canadienne pour les entreprises

Cohere : Le canadien qui mise sur l'IA pour les entreprises

Dans l'écosystème mondial de l'intelligence artificielle, dominé par les géants américains et chinois, Cohere se positionne comme une alternative crédible. Fondée à Toronto en 2019, cette entreprise canadienne spécialisée dans le deep learning a développé une gamme de modèles de langage conçus spécifiquement pour répondre aux besoins des entreprises. Avec une approche axée sur la performance, la sécurité et l'efficacité matérielle, Cohere cherche à se démarquer dans un secteur hautement concurrentiel.

hugging face site internet
Comprendre Hugging Face et son rôle dans l’IA

Qu’est-ce que Hugging Face ?

Vous entendez parler de Hugging Face partout ? Ce nom étonnant cache un acteur central du monde de l’intelligence artificielle. Décryptage.

mixture of experts MoE
Architecture Mixture of Experts

L'architecture "Mixture of Experts" (MoE) expliquée simplement

Dans le paysage de l'intelligence artificielle, une architecture gagne en popularité : le Mixture of Experts (MoE). Cette approche révolutionnaire permet de créer des modèles à la fois puissants et efficaces. Mais comment fonctionne-t-elle exactement ? Pourquoi des modèles comme Mixtral ou GPT-4 l'adoptent-ils ? Décryptons ensemble cette innovation devenue incontournable pour le deep learning.