Advisory LLM 2026-06-01 : llama.cpp b9436–b9444, MiniMax M3 (1M tokens), StepFun Step 3.7 Flash

🚨 Breaking

Rien à signaler ce jour.

🗑️ Dépréciations

Rien à signaler ce jour.

💰 Pricing

Aucun changement tarifaire dans le brief du jour.

🆕 Nouveautés

llama.cpp — builds b9436 à b9444 (2026-05-30 / 2026-05-31)

Cinq builds en deux jours. Les changements qui ont un impact concret :

b9436 : support OpenCL bf16 par conversion en f16. Pertinent si tu fais tourner llama.cpp sur GPU non-NVIDIA via OpenCL. (release)
b9437 : -fa auto supporté dans llama-bench, valeur par défaut de -ngl passée à -1 (aligné avec les autres outils). (release)
b9439 : une seule iGPU utilisée par défaut — évite les comportements inattendus sur machines avec plusieurs GPU intégrés. (release)
b9441 : fix truncation ETag avec le compilateur MSVC — uniquement si tu builds sous Windows. (release)
b9442 : tokenizer jina-embeddings-v2-base-zh ajouté (whitespace tokenizer, lowercase activé par défaut). Utile pour embeddings sur corpus chinois. (release)
b9444 : le server gère désormais les weak ETags If-None-Match — meilleure conformité HTTP côté cache. (release)

MiniMax M3 — disponible via OpenRouter (2026-05-31)

Modèle multimodal (entrées texte, image, vidéo ; sortie texte), fenêtre de contexte 1M tokens. Positionné pour travail agentique long horizon et coding. Pas de pricing indiqué dans le brief. (OpenRouter)

StepFun Step 3.7 Flash — disponible via OpenRouter (2026-05-28)

Architecture MoE multimodal : backbone 196B paramètres, ~11B activés par inférence, plus vision encoder natif image/vidéo. Profil orienté efficience. (OpenRouter)

🌐 Actualité IA

Deux papiers HuggingFace à surveiller :

Representation Forcing : approche supprimant la dépendance au VAE pré-entraîné figé dans les modèles multimodaux unifiés (UMMs). Réduit un bottleneck structurel sans dégradation de qualité de génération. (HF Papers)
LongTraceRL : méthode RLVR (reinforcement learning with verifiable rewards) entraînée sur des trajectoires d'agents de recherche avec récompenses rubric pour améliorer le raisonnement long contexte. Pertinent si tu évalues des LLMs sur des pipelines RAG multi-étapes. (HF Papers)

💡 Conseil du jour

Si tu as un pipeline consommant de grandes fenêtres contexte (RAG sur documents longs, analyse de transcriptions), teste MiniMax M3 via OpenRouter aujourd'hui : fenêtre 1M tokens accessible via une API OpenAI-compatible — zéro changement d'architecture, juste un swap de base URL et de model ID.