🚨 Breaking
Aucun changement
🗑️ Dépréciations
Aucun changement
💰 Pricing
Aucun changement
🆕 Nouveautés
- llama.cpp : Trois releases notables :
b9553: Relaxation du matching de noms de samplers (ex:top-kaccepté en plus detop_k). Détailsb9551: Évite les copies de cellules KV-cache, réduisant l’allocation mémoire. Détailsb9547: Skip du téléchargement du mmproj si l’utilisateur en fournit un. Détailsb9544: Correction du round-trip de raisonnement LFM2 et fuite<think>. Détailsb9543: Support du frame merge pour les modèles basés sur Qwen-VL (vidéo). Détails- Ollama :
v0.30.5corrige un crash FPE sur Gemma4:12b (x86/CUDA).v0.30.6ajoute les poids QAT (Quantization-Aware Training) pour Gemma 4 (tags-qat). v0.30.5 v0.30.6 - Cohere :
BLS-Mini-Code-1.0, un modèle MoE léger orienté code. HuggingFace - NVIDIA :
Nemotron 3.5 Content Safety(4B), guardrail multimodal gratuit sur OpenRouter. OpenRouter
🌐 Actualité IA
- Paper : When Tools Fail: Benchmarking Dynamic Replanning and Anomaly Recovery in LLM Agents (ToolMaze). Évalue la capacité des agents à se remettre d’échecs d’outils, au-delà du happy path. Lien
- Signal réglementaire : aucun.
💡 Conseil du jour
Testez les poids QAT de Gemma 4 (-qat via Ollama) dans votre pipeline local : réduction mémoire significative sans perte de qualité flagrante. Idéal pour déploiement sur GPU contraint. Combinez avec le guardrail gratuit Nemotron 3.5 Content Safety pour filtrer les entrées/sorties.
Action immédiate : 1. Mettez à jour Ollama vers v0.30.6 (correction crash Gemma4). 2. Évaluez la relaxation de noms de samplers dans llama.cpp (b9553) si vous automatisiez des configs de sampling. 3. Si vous construisez des agents, lisez le paper ToolMaze pour anticiper les patterns de replanification.