llama.cpp b9553, Ollama 0.30.6, Nemotron safety guardrail

🚨 Breaking

Aucun changement

🗑️ Dépréciations

Aucun changement

💰 Pricing

Aucun changement

🆕 Nouveautés

llama.cpp : Trois releases notables :
b9553 : Relaxation du matching de noms de samplers (ex: top-k accepté en plus de top_k). Détails
b9551 : Évite les copies de cellules KV-cache, réduisant l’allocation mémoire. Détails
b9547 : Skip du téléchargement du mmproj si l’utilisateur en fournit un. Détails
b9544 : Correction du round-trip de raisonnement LFM2 et fuite <think>. Détails
b9543 : Support du frame merge pour les modèles basés sur Qwen-VL (vidéo). Détails
Ollama : v0.30.5 corrige un crash FPE sur Gemma4:12b (x86/CUDA). v0.30.6 ajoute les poids QAT (Quantization-Aware Training) pour Gemma 4 (tags -qat). v0.30.5 v0.30.6
Cohere : BLS-Mini-Code-1.0, un modèle MoE léger orienté code. HuggingFace
NVIDIA : Nemotron 3.5 Content Safety (4B), guardrail multimodal gratuit sur OpenRouter. OpenRouter

🌐 Actualité IA

Paper : When Tools Fail: Benchmarking Dynamic Replanning and Anomaly Recovery in LLM Agents (ToolMaze). Évalue la capacité des agents à se remettre d’échecs d’outils, au-delà du happy path. Lien
Signal réglementaire : aucun.

💡 Conseil du jour

Testez les poids QAT de Gemma 4 (-qat via Ollama) dans votre pipeline local : réduction mémoire significative sans perte de qualité flagrante. Idéal pour déploiement sur GPU contraint. Combinez avec le guardrail gratuit Nemotron 3.5 Content Safety pour filtrer les entrées/sorties.

Action immédiate : 1. Mettez à jour Ollama vers v0.30.6 (correction crash Gemma4). 2. Évaluez la relaxation de noms de samplers dans llama.cpp (b9553) si vous automatisiez des configs de sampling. 3. Si vous construisez des agents, lisez le paper ToolMaze pour anticiper les patterns de replanification.