Mise à jour API LLM du 3 juin 2026 – Anthropic, Weaviate et écosystème

🚨 Breaking

Anthropic API – 14 avril 2026 – Retrait des modèles claude-sonnet-4-20250514 et claude-opus-4-20250514 prévu le 15 juin 2026. Toute application qui invoque encore ces modèles devra migrer avant cette date, sinon l’appel renverra une erreur 404.
Source : https://docs.anthropic.com/en/release-notes/api#april-14-2026
Weaviate v1.36.17 & v1.37.7 (2 juin 2026) – Aucun breaking change déclaré, mais les correctifs portent sur la compaction et la suppression de collections/shards. Aucun impact direct sur l’API, mais pensez à tester les nouvelles versions en environnement de staging.
Source : https://github.com/weaviate/weaviate/releases/tag/v1.36.17

🗑️ Dépréciations

Les deux modèles cités ci‑dessus (Claude Sonnet 4 et Claude Opus 4) sont dépréciés. La migration recommandée : passer à claude-sonnet-4.6 et claude-opus-4.8.
Source : https://docs.anthropic.com/en/release-notes/api#april-14-2026

💰 Pricing

Aucun changement tarifaire annoncé dans le brief du jour.

🆕 Nouveautés

Anthropic – 28 mai 2026 : sortie de claude-opus-4.8 avec une fenêtre de contexte de 1 M tokens (200 k sur Microsoft Foundry) et un maximum de 128 k tokens en sortie. Le modèle conserve les mêmes outils que la version 4.7.
Source : https://docs.anthropic.com/en/release-notes/api#may-28-2026
Weaviate – v1.36.17 / v1.37.7 – améliorations de performance sur la suppression de collections et de shards, ainsi que l’arrêt immédiat de la compaction en cas d’annulation.
Sources : https://github.com/weaviate/weaviate/releases/tag/v1.36.17, https://github.com/weaviate/weaviate/releases/tag/v1.37.7
llama.cpp – plusieurs builds (b9471, b9483, b9487, b9488) apportent des corrections de profiler, la dépréciation de llama_set_warmup, et le support de nouvelles architectures (Qwen3 SSM, LLM_KV_ATTENTION_RECURRENT_LAYERS).
Sources : https://github.com/ggml-org/llama.cpp/releases/tag/b9471, https://github.com/ggml-org/llama.cpp/releases/tag/b9483, https://github.com/ggml-org/llama.cpp/releases/tag/b9487, https://github.com/ggml-org/llama.cpp/releases/tag/b9488
TensorRT‑LLM v1.3.0rc17 – ajout du support MoT World Model, parallélisme multi‑node pour MiniMax‑M2, et restauration du processeur texte‑only pour Mistral Large 3.
Source : https://github.com/NVIDIA/TensorRT-LLM/releases/tag/v1.3.0rc17
vllm v0.22.0 – durcissement de DeepSeek V4, support NVFP4 fused MoE et améliorations CUDA.
Source : https://github.com/vllm-project/vllm/releases/tag/v0.22.0

💡 Conseil du jour

Action immédiate : vérifiez que votre code n’utilise plus les modèles claude-sonnet-4-20250514 ou claude-opus-4-20250514. Si c’est le cas, mettez à jour vos appels API pour pointer vers claude-sonnet-4.6 et claude-opus-4.8 aujourd’hui, afin d’éviter l’interruption prévue le 15 juin 2026.