🚨 Breaking
Aucun breaking change aujourd'hui.
🗑️ Dépréciations
Aucune dépréciation annoncée.
💰 Pricing
Aucun mouvement tarifaire dans le brief du jour.
🆕 Nouveautés
llama.cpp b9330 — bug fix sur nemotron-h : ffn_latent_down/up sont déclarés GGML_OP_MUL dans LLM_TENSOR_INFOS mais acheminés via ggml_mul_mat. Le buft probe testait donc une opération elementwise MUL sur un poids q8_0 — cette vérification retournait true de façon inconditionnelle, ce qui pouvait placer le tenseur sur le mauvais backend sans erreur explicite. Fix : tag ffn_latent comme MUL_MAT. Si nemotron-h tourne dans ton stack llama.cpp, mise à jour prioritaire. b9330
llama.cpp b9329 — ajout d'un fast Walsh-Hadamard transform CUDA (unrolls, warp size 64). Gain potentiel selon les architectures. Pas d'API modifiée. b9329
Cline v3.85.0 — nouveaux modèles disponibles : DeepSeek V4 Flash et Pro, Gemini 3.5 Flash (providers Gemini et Vertex), GPT-5.5 pour SAP AI Core. Correction du routing Vertex AI global endpoint pour les modèles Claude. Si tu utilises Cline sur Vertex, vérifier le comportement Claude après mise à jour. v3.85.0
🌐 Actualité IA
HN — "Using AI to write better code more slowly" (295 pts, 117 commentaires) : signal communautaire fort sur l'arbitrage vitesse / qualité quand on code avec l'IA. Le débat porte sur la maintenabilité réelle du code produit sous assistance IA, pas sur le débit brut. lire
DVAO (HF Papers) — Dynamic Variance-adaptive Advantage Optimization : amélioration de GRPO (Group Relative Policy Optimization) pour les settings RL multi-reward sur LLM. Pertinent si tu fine-tunes avec RL. papier
💡 Conseil du jour
Si nemotron-h est dans ton stack llama.cpp, mets à jour vers b9330 maintenant. Le bug de buft probe était silencieux — pas de crash, pas d'erreur, juste un placement de tenseur incorrect sur le backend. Ce type de régression passe à travers les tests fonctionnels classiques.