Step 3 de Stepfun : un modèle IA open source prometteur

Step 3 le nouveau modèle de Stepfun : Open Source et prometteur

L’IA open source fait un pas de géant avec Step 3, le nouveau modèle de Stepfun. Avec 321 milliards de paramètres et une architecture innovante, il se positionne comme un concurrent sérieux aux modèles propriétaires. Découvrez ce qui rend ce modèle si spécial et pourquoi il fait tant parler.

Un modèle à la pointe de l’IA open source

Stepfun dévoile Step 3, un modèle multimodal de 321B de paramètres, conçu pour rivaliser avec les meilleures IA du marché. Contrairement à GPT-4 ou Gemini, il est entièrement open source. Cela signifie que tout le monde peut l’utiliser, l’étudier et le modifier librement.

Une architecture innovante : Mixture-of-Experts

Step 3 utilise une architecture Mixture-of-Experts (MoE), une approche déjà éprouvée sur des modèles comme Mixtral, Claude ou certaines versions de GPT. Sur ses 321B de paramètres, seuls 38B sont activés à chaque inférence (prompt).
Ce choix technique réduit les coûts de calcul tout en conservant une puissance exceptionnelle. Ce qui rend Step 3 particulièrement remarquable, c’est de proposer une telle architecture MoE à cette échelle en open source, combinée à des optimisations poussées pour la rendre plus accessible que bien des modèles propriétaires équivalents.

MoE : comment ça marche ?

Dans une architecture MoE, seuls certains "experts" sont activés selon la tâche à traiter. Cela évite de mobiliser toute la puissance du modèle pour chaque requête. Résultat : une efficacité accrue et une meilleure gestion des ressources.

Voir notre article de vulgarisation sur le concept de Mixture of Experts

Des performances impressionnantes

Step 3 excelle dans de nombreuses tâches complexes :

  • Raisonnement visuel : il comprend et interprète les images avec précision.
  • Résolution de problèmes : mathématiques, logique, programmation.
  • Multimodalité : il traite aussi bien du texte que des images.

Il surpasse de nombreux modèles open source et rivalise avec les modèles propriétaires sur des benchmarks comme MMMU ou MATH-Vision.


Les performances de step 3 au test AIME25
En rouge, Step 3 se distingue par un score AIME25 élevé (82.9) tout en restant open source, là où la plupart des meilleurs modèles (Gemini, o3, Grok) sont propriétaires.

Une efficacité optimisée

Grâce à des innovations comme le Multi-Matrix Factorization Attention (MFA) et l’Attention-FFN Disaggregation (AFD), Step 3 réduit les coûts de décodage. Il ne nécessite que 22 % du coût d’attention de DeepSeek V3 par exemple. Un atout majeur pour son adoption à grande échelle.

Des économies d'énergie et de calcul

Ces optimisations techniques permettent à Step 3 de tourner sur huit GPU de 48 Go. Il peut traiter des contextes jusqu’à 800 000 tokens. Une performance qui le rend accessible à plus d’utilisateurs et d’entreprises.

Un modèle multimodal avancé

Step 3 comprend aussi bien du texte que des images. Son encodeur visuel, basé sur Eva-CLIP 5B, analyse les images avec précision. Il les comprime avant de les fusionner avec les tokens textuels. Une approche qui le rend polyvalent et adapté à de nombreuses applications.

Pourquoi l’open source est un avantage

En rendant Step 3 open source, Stepfun favorise l’innovation collective. Les chercheurs et développeurs peuvent l’étudier et l’améliorer. C’est un choix stratégique pour démocratiser l’IA.

Sources


Qu’est-ce que le modèle Step 3 de Stepfun ?

Step 3 est un modèle IA multimodal open source développé par Stepfun, avec 321B de paramètres. Il utilise une architecture Mixture-of-Experts et excelle dans des tâches de raisonnement visuel et textuel.

Pourquoi le modèle Step 3 est-il open Source ?

Stepfun a choisi de rendre le modèle Step 3 open source pour favoriser l’innovation collective et permettre à tous de l’utiliser et de l’améliorer.

Quelles sont les performances du modèle Step 3 ?

Le modèle Step 3 surpasse de nombreux modèles open source et rivalise avec les modèles propriétaires sur des benchmarks comme MMMU ou MATH-Vision.

Comment utiliser le modèle Step 3 ?

Le code source du modèle Step 3 est disponible sur GitHub. Il peut être déployé sur huit GPU de 48 Go et traiter jusqu’à 800 000 tokens.

Pourquoi le modèle Step 3 est-il considéré comme prometteur ?

Le modèle Step 3 est considéré comme prometteur car il combine puissance, efficacité et open source. Il représente une avancée majeure pour l’IA accessible et performante.

Sur le même sujet

openai gpt-oss
OpenAI bascule dans l'open-source

GPT OSS : OpenAI comprend que l'avenir de l'IA sera open ou ne sera pas

Dans un mouvement qui a surpris l'écosystîme de l'intelligence artificielle, OpenAI a annoncé la sortie de deux modèles open-source via la plateforme HuggingFace. Une décision qui marque un changement stratégique fondamental pour l'entreprise jusqu'ici réputée pour son approche fermée. GPT OSS n'est pas qu'une simple mise à jour technique : c'est la reconnaissance que l'avenir de l'IA sera déterminé par l'équilibre entre innovation propriétaire et collaboration ouverte.

mixture of experts MoE
Architecture Mixture of Experts

L'architecture "Mixture of Experts" (MoE) expliquée simplement

Dans le paysage de l'intelligence artificielle, une architecture gagne en popularité : le Mixture of Experts (MoE). Cette approche révolutionnaire permet de créer des modèles à la fois puissants et efficaces. Mais comment fonctionne-t-elle exactement ? Pourquoi des modèles comme Mixtral ou GPT-4 l'adoptent-ils ? Décryptons ensemble cette innovation devenue incontournable pour le deep learning.

ia locale smartphone
IA locale sur smartphone

Une IA locale sur son smartphone : c'est déjà possible

Imaginez une intelligence artificielle qui fonctionne directement sur votre téléphone, sans connexion Internet, sans envoyer vos données dans le cloud et sans latence. Ce n'est plus de la science-fiction : l'IA locale sur smartphone est déjà une réalité. Voici comment ça marche, ce que vous pouvez déjà faire, et ce que l'avenir nous réserve.

lm arena classement ia
LM Arena : l'arène des modèles de langage

LM Arena : l'arène des modèles de langage

Dans l'univers compétitif de l'intelligence artificielle, comment savoir quel modèle de langage est le plus performant ? LM Arena (anciennement Chatbot Arena) apporte une réponse innovante à cette question. Cette plateforme open-source a révolutionné l'évaluation des LLM en s'appuyant sur une approche communautaire et transparente. Plongeons dans l'arène où s'affrontent les géants de l'IA.

Z.aiGLM‑4.5
GLM‑4.5 Z.ai challenger américain

GLM‑4.5 : l’IA chinoise qui vient défier les géants américains

Z.ai (anciennement Zhipu AI) a récemment dévoilé GLM‑4.5, un modèle open‑source de nouvelle génération. Conçu pour les agents intelligents, il ambitionne de rivaliser avec GPT‑4 et Claude. Cet article présente qui est derrière GLM‑4.5, ses usages concrets, et pourquoi il incarne l’outsider chinois qui monte en puissance.

GPT GLM
Z.AI vs ChatGPT

Pourquoi j'utilise de plus en plus Z.AI à la place de ChatGPT

Bien que fidèle à ChatGPT depuis plus d'un an, je me rends compte que je ne lui fais plus autant confiance pour m'assister dans mon travail de rédaction ou de développement. Je trouve GLM meilleur sur certains aspects, et c'est précisément de ces différences que je souhaite vous parler dans cet article.