Claude Opus 4.8 GA : contexte 1M tokens, deux model IDs retirés en prod

🚨 Breaking

claude-opus-4-8 est le nouveau modèle GA le plus capable d'Anthropic (28 mai 2026). Contexte par défaut : 1M tokens. Output max : 128k tokens. Feature parity complète avec claude-opus-4-7. À évaluer immédiatement pour migration. → Notes de version Anthropic

claude-3-opus-20240229 retiré depuis le 5 janvier 2026. Tout appel prod ciblant ce model ID est en échec depuis 5 mois. Remplacement officiel : claude-opus-4-8. → Deprecations Anthropic

claude-2.0 retiré depuis le 21 juillet 2025. Même situation — appels bloqués en prod depuis près d'un an. Remplacement officiel : claude-opus-4-8. → Deprecations Anthropic

🗑️ Dépréciations

Aucune nouvelle dépréciation annoncée dans ce brief. Les deux retraits listés ci-dessus (claude-3-opus-20240229, claude-2.0) sont déjà consommés — deadline passée.

💰 Pricing

Aucune donnée de pricing dans ce brief.

🆕 Nouveautés

vLLM v0.22.0 (29 mai) : 459 commits, 230 contributeurs dont 63 nouveaux. DeepSeek V4 réorganisé en package dédié vllm/models/deepseek_v4/, support NVFP4 fused MoE ajouté. Release à prioriser si tu sers des modèles DeepSeek V4 en self-hosted. → vLLM v0.22.0

llama.cpp — plusieurs builds publiés le 29 mai : - b9403 : correctif de corruption de sortie sur le backend Vulkan — les tenseurs !COMPUTE n'étaient pas multipliés par zéro, produisant des outputs corrompus - b9414 : support DeepSeek-OCR 2 avec résolution dynamique multi-tile - b9415 : option skip_download — respecte le flag si le fichier existe déjà localement → b9403 · b9414 · b9415

💡 Conseil du jour

Grep claude-3-opus-20240229 et claude-2.0 dans ton code, tes configs et tes variables d'environnement. Ces deux identifiants provoquent des erreurs en prod depuis janvier 2026 et juillet 2025 respectivement — si tu ne les as pas encore supprimés, tu as probablement un circuit breaker silencieux quelque part. Migration cible : claude-opus-4-8. Si tu passes sur Opus 4.8, revois aussi toute limite de tokens de sortie codée en dur : le max est maintenant 128k tokens.