Strategic Decision Benchmark v1 · Mai 2026

L'IA qui décide
vraiment. The AI that truly
decides.

Sur 10 cas stratégiques réels, évalués à l'aveugle par 3 juges LLM indépendants, Atalas devance Claude, ChatGPT et Gemini. Méthodologie publique. Données ouvertes. On 10 real strategic cases, blind-evaluated by 3 independent LLM judges, Atalas beats Claude, ChatGPT and Gemini. Public methodology. Open data.

Essayer AtalasTry Atalas

Télécharger le rapport completDownload full report

Classement général · note /5Overall ranking · score /5

1 Atalas 4,09

2 ChatGPT 3,51

3 Claude 3,44

4 Gemini 3,38

#1 sur 8 cas stratégiques sur 10. Aucune zone faible sur les 4 dimensions. #1 on 8 of 10 strategic cases. No weak spot across the 4 dimensions.

10 cas réelsreal cases · 4 modèlesmodels · 3 juges LLMLLM judges · 120 réponses notéesscored responses · Méthodologie publiquePublic methodology

Score composite · peer-exclusionComposite score · peer-exclusion

Atalas devance, nettement.Atalas leads, clearly.

Après correction du biais d'auto-affinité. #1 sur 3 des 4 dimensions, #2 sur la 4ᵉ. Aucune zone faible. After auto-affinity bias correction. #1 on 3 of 4 dimensions, #2 on the 4th. No weak spot.

Rang	Modèle	Score	Signal	Contre-int.	Décidab.	Robust.
1	Atalas	4,09	3,97	3,83	4,72	3,33
2	ChatGPT	3,51	3,63	3,42	3,58	3,07
3	Claude	3,44	3,35	3,17	3,85	3,18
4	Gemini	3,38	3,33	3,17	3,85	2,70

Méthode peer-exclusion pour neutraliser le biais d'auto-affinité. Significatif à p<0,001, Cohen d = 1,69, effet de très grande taille. Peer-exclusion method to neutralize auto-affinity bias. Significant at p<0.001, Cohen d = 1.69, very large effect size.

Le différenciant · DécidabilitéThe differentiator · Decidability

Sur la dimension qui compte pour décider, l'écart est massif. On the dimension that matters for deciding, the gap is massive.

La Décidabilité = la capacité à produire une recommandation tranchée et un plan d'action exécutable. C'est ce qui sépare une note qui éclaire la décision d'une note qui décide. Decidability = the ability to produce a clear-cut recommendation and an executable action plan. It's what separates a grade that informs a decision from one that decides.

01Recommandation tranchée dès l'ouvertureClear-cut recommendation from the start
02Plan opérationnel 30/60/90 structuréStructured 30/60/90 operational plan
03Risques explicitement arbitrésRisks explicitly arbitrated

Décidabilité / 5Decidability / 5

4,72

Atalas4,72

Claude3,85

Gemini3,85

ChatGPT3,58

73%

Atalas

33%

Claude

28%

Gemini

ChatGPT

Part des réponses notées 5/5 sur la Décidabilité par les jugesShare of responses scored 5/5 on Decidability by the judges

4 dimensions de qualité décisionnelle4 dimensions of decision quality

Les benchmarks LLM classiques mesurent la fluidité, le QI général ou le code. Aucun ne mesure ce qui fait gagner ou perdre une décision. Classic LLM benchmarks measure fluency, general IQ or code. None measure what wins or loses a decision.

35%#1

Signal

Hiérarchiser ce qui compte. Écarter le bruit.Prioritize what matters. Cut the noise.

3,97/5

25%#1

Contre-intuitionCounter-intuition

Oser une 3ᵉ voie. Refuser le faux choix.Dare a 3rd path. Reject the false choice.

3,83/5

30%#1

DécidabilitéDecidability

Recommandation tranchée. Plan exécutable.Clear-cut recommendation. Executable plan.

4,72/5

10%#2

Robustesse

Identifier ce qui pourrait changer la décision.Identify what could change the decision.

3,33/5

Fort partout.
Faible nulle part. Strong everywhere.
Weak nowhere.

Le profil « fort sur les 4 dimensions » est unique parmi les modèles testés. Claude est faible sur Signal et Contre-intuition. Gemini sur Robustesse. ChatGPT est régulier mais sans pic. The "strong on all 4 dimensions" profile is unique among the tested models. Claude is weak on Signal and Counter-intuition. Gemini on Robustness. ChatGPT is steady but with no peak.

Pour un dirigeant : quel que soit le cas de figure, vous obtenez le meilleur. Pas besoin de choisir un outil par situation. For an executive: whatever the scenario, you get the best. No need to pick a tool per situation.

Régularité · le pire cas reste meilleurConsistency · worst case still better

ModèleModel	ScoreScore	PlancherFloor
Atalas	4,09	3,84
ChatGPT	3,51	3,36
Claude	3,44	3,21
Gemini	3,38	3,21

Le pire cas d'Atalas (3,84) reste supérieur à la moyenne du meilleur concurrent (ChatGPT, 3,51). Pas de « mauvais jour » qui ferait basculer le classement. Atalas's worst case (3.84) stays above the best competitor's average (ChatGPT, 3.51). No "bad day" that would flip the ranking.

Les cas en détailThe cases in detail

8 cas sur 10. 8 cases out of 10.

10 cas stratégiques réels : scale-up SaaS en crise, CapEx vert, M&A sous 10 jours, crise réputationnelle. Atalas est #1 sur 8 cas. Sur les 2 restants, l'écart avec le leader est de 0,04 et 0,06 pt. 10 real strategic cases: SaaS scale-up in crisis, green CapEx, 10-day M&A, reputational crisis. Atalas is #1 on 8 cases. On the 2 remaining, the gap with the leader is 0.04 and 0.06 pt.

SaaS · Croissance & churnGrowth & churn

Une scale-up SaaS face à un churn qui s'accélère doit arbitrer entre rétention, acquisition et repositionnement produit. Un des 2 cas où Atalas n'est pas #1, dans le mouchoir de poche.A SaaS scale-up facing accelerating churn must arbitrate between retention, acquisition and product repositioning. One of the 2 cases where Atalas is not #1, within a hair's breadth.

Claude 3,92Atalas 3,86

Industrie · InvestissementIndustry · Investment

Un industriel doit décider d'un investissement de décarbonation lourd sous incertitude réglementaire et marché. Le piège : trancher binairement au lieu de phaser l'engagement.An industrial must decide on a heavy decarbonization investment under regulatory and market uncertainty. The trap: deciding binarily instead of phasing the commitment.

Atalas 3,89ChatGPT 3,59

M&A · AcquisitionAcquisition

Une offre à 95M€ sur un concurrent, 3 risques majeurs en due diligence, décision sous 10 jours. Atalas structure un earn-out conditionnel sur la rétention du CTO plutôt que d'accepter le prix plein.A €95M offer on a competitor, 3 major due-diligence risks, decision within 10 days. Atalas structures a conditional earn-out on CTO retention rather than accepting full price.

Atalas 4,57Gemini 3,76

Communication de crise · RHCrisis comms · HR

Un thread X explose contre une licorne française (550 salariés), accusant un VP proche du CEO. « Quelle est notre position dans 6 heures ? » Atalas sépare la décision RH (suspension) de la décision communicationnelle (publication décalée).An X thread explodes against a French unicorn (550 employees), accusing a VP close to the CEO. "What's our position in 6 hours?" Atalas separates the HR decision (suspension) from the comms decision (delayed publication).

Atalas 4,16Gemini 3,59

Produit · Pricing SaaSProduct · SaaS pricing

Un SaaS B2B (8M€ ARR, 600 clients) avec grille 49/149/399 doit revoir son pricing. Le piège : ajuster les prix sans reconstruire la structure des paliers. Second cas où Atalas n'est pas #1, écart négligeable.A B2B SaaS (€8M ARR, 600 clients) with a 49/149/399 tier must rework its pricing. The trap: adjusting prices without rebuilding the tier structure. Second case where Atalas isn't #1, negligible gap.

ChatGPT 3,94Atalas 3,90

Stratégie financièreFinancial strategy

Une société tech (45M€ CA, +25%, EBITDA breakeven) a mandat de lever 15-20M€. Le piège : lever ce montant aujourd'hui cristallise une décote. La bonne réponse : mixer venture debt + série C patiente à 9 mois.A tech company (€45M revenue, +25%, EBITDA breakeven) has a mandate to raise €15-20M. The trap: raising that amount today crystallizes a discount. The right answer: mix venture debt + a patient Series C in 9 months.

Atalas 4,05Claude 3,75

Stratégie commerciale · Dépendance clientSales strategy · Client dependence

Un sous-traitant mécanique (22M€ CA) voit son plus gros client (41% du CA) demander -7% prix, +30j DSO, contre un contrat-cadre 5 ans. La bonne réponse : contre-structure + plan de désensibilisation client sur 12 mois.A mechanical subcontractor (€22M revenue) sees its biggest client (41% of revenue) demand -7% price, +30d DSO, against a 5-year framework contract. The right answer: counter-structure + 12-month client de-risking plan.

Atalas 3,89ChatGPT 3,22

RH · GouvernanceHR · Governance

Une VP Engineering évoque un drame personnel et une situation opérationnelle dégradée. Le piège : glisser vers le registre du soutien humain et manquer le diagnostic opérationnel. Atalas sépare les deux registres et refuse le cadrage initial.A VP Engineering raises a personal drama and a degraded operational situation. The trap: drifting into the register of human support and missing the operational diagnosis. Atalas separates the two registers and rejects the initial framing.

Atalas 4,25Claude 3,76

Tech · Make-or-buy IATech · Make-or-buy AI

Un SaaS B2B vertical (14M€ CA, expertise comptable) doit intégrer de l'IA : build, buy API, ou partner white-label. Le piège : choisir une option pure. La bonne réponse : phaser avec API en court terme + préparation conditionnelle du build.A vertical B2B SaaS (€14M revenue, accounting expertise) must integrate AI: build, buy API, or white-label partner. The trap: picking a pure option. The right answer: phase with API short-term + conditional build preparation.

Atalas 4,19Gemini 3,72

Stratégie d'entreprise · ÉthiqueCorporate strategy · Ethics

Un groupe industriel coté (1,2Md€ CA) a un client à 14% du CA dans un pays sous sanctions partielles. Sortir : 38M€ de pénalités, 168M€ de CA perdu. Rester : risque réputationnel et réglementaire. Pas de « bonne réponse » : le scoring porte sur la qualité du raisonnement et l'honnêteté sur l'incertitude.A listed industrial group (€1.2B revenue) has a client at 14% of revenue in a partially sanctioned country. Exit: €38M penalties, €168M lost revenue. Stay: reputational and regulatory risk. No "right answer": scoring is on reasoning quality and honesty about uncertainty.

Atalas 4,19ChatGPT 3,91

Méthodologie publiquePublic methodology

Démontré.
Pas affirmé. Demonstrated.
Not asserted.

Méthodo ouverte, 3 juges LLM indépendants, évaluation en aveugle, biais d'auto-affinité corrigé, résultats stables sur 3 méthodes d'agrégation. Vous pouvez refaire le test. Open methodology, 3 independent LLM judges, blind evaluation, auto-affinity bias corrected, stable results across 3 aggregation methods. You can rerun the test.

Dataset complet + arXiv (à venir)Full dataset + arXiv (coming)

Méthodologie publiquePublic methodology

Reproductible par un tiers : dataset Excel 120 lignes, 9 onglets analytiques.Reproducible by a third party: 120-row Excel dataset, 9 analytical tabs.

Biais nommés et corrigésNamed and corrected biases

Claude-juge sur-note Claude-modèle de +1,41 pt. Peer-exclusion appliquée à tous les modèles.Claude-judge over-rates Claude-model by +1.41 pt. Peer-exclusion applied to all models.

Évaluation en aveugleBlind evaluation

Les juges ne connaissent ni le modèle ni les métadonnées. Texte seul.Judges know neither the model nor the metadata. Text only.

Résultat stableStable result

Atalas est #1 ou #2 sur les 3 méthodes d'agrégation testées.Atalas is #1 or #2 across the 3 aggregation methods tested.

Pour un dirigeant, c'est un no-brainerFor an executive, it's a no-brainer

L'IA française qui devance les LLMs des trois géants américains. The French AI that beats the LLMs of the three American giants.

Le meilleur sur la dimension qui compte le plus.The best on the dimension that matters most.

Décidabilité : 4,72/5 vs 3,85 pour le 2ᵉ. Note maximale dans 73% des cas, vs 33% pour Claude et 3% pour ChatGPT. Pour un dirigeant qui doit trancher, il n'y a pas de match.Decidability: 4.72/5 vs 3.85 for #2. Top score in 73% of cases, vs 33% for Claude and 3% for ChatGPT. For an executive who must decide, there's no contest.

8 cas sur 10. Et aucune zone faible.8 cases out of 10. And no weak spot.

Atalas est #1 sur 8 des 10 cas. Sur les 2 restants, l'écart est de 0,04 et 0,06 pt. Sur les 4 dimensions, Atalas est #1 sur 3 et #2 sur la 4ᵉ.Atalas is #1 on 8 of 10 cases. On the 2 remaining, the gap is 0.04 and 0.06 pt. Across the 4 dimensions, Atalas is #1 on 3 and #2 on the 4th.

Une qualité stable.A stable quality.

Le plancher d'Atalas (3,84) est au-dessus de la moyenne du meilleur concurrent (ChatGPT à 3,51). Pas de « mauvais jour » qui ferait basculer le classement. C'est fiable, et c'est rare.Atalas's floor (3.84) is above the best competitor's average (ChatGPT at 3.51). No "bad day" that would flip the ranking. It's reliable, and that's rare.

C'est démontré, pas affirmé.It's demonstrated, not asserted.

Méthodologie publique, 3 juges LLM, évaluation en aveugle, biais corrigé, p<0,001, Cohen d = 1,69. Vous pouvez refaire le test. Le dataset complet est en accès libre.Public methodology, 3 LLM judges, blind evaluation, bias corrected, p<0.001, Cohen d = 1.69. You can rerun the test. The full dataset is openly available.

Le rapport completThe full report

Téléchargez le benchmark complet. Download the full benchmark.

Le rapport PDF (17 pages, méthodologie complète) et le dataset Excel (120 lignes, 3 juges, 9 onglets analytiques). Reçus immédiatement par email. The PDF report (17 pages, full methodology) and the Excel dataset (120 rows, 3 judges, 9 analytical tabs). Received immediately by email.

PDF Excel

Télécharger le communiqué de presseDownload the press release

L'IA qui décidevraiment. The AI that trulydecides.

Atalas devance, nettement.Atalas leads, clearly.

Sur la dimension qui compte pour décider, l'écart est massif. On the dimension that matters for deciding, the gap is massive.

Les benchmarks LLM classiques mesurent la fluidité, le QI général ou le code. Aucun ne mesure ce qui fait gagner ou perdre une décision. Classic LLM benchmarks measure fluency, general IQ or code. None measure what wins or loses a decision.

Signal

Contre-intuitionCounter-intuition

DécidabilitéDecidability

Robustesse

Fort partout.Faible nulle part. Strong everywhere.Weak nowhere.

8 cas sur 10. 8 cases out of 10.

Démontré.Pas affirmé. Demonstrated.Not asserted.

Méthodologie publiquePublic methodology

Biais nommés et corrigésNamed and corrected biases

Évaluation en aveugleBlind evaluation

Résultat stableStable result

L'IA française qui devance les LLMs des trois géants américains. The French AI that beats the LLMs of the three American giants.

Le meilleur sur la dimension qui compte le plus.The best on the dimension that matters most.

8 cas sur 10. Et aucune zone faible.8 cases out of 10. And no weak spot.

Une qualité stable.A stable quality.

C'est démontré, pas affirmé.It's demonstrated, not asserted.

Téléchargez le benchmark complet. Download the full benchmark.

L'IA qui décide
vraiment. The AI that truly
decides.

Fort partout.
Faible nulle part. Strong everywhere.
Weak nowhere.

Démontré.
Pas affirmé. Demonstrated.
Not asserted.