llama.cpp corrige un bug de placement backend sur nemotron-h ; cline ajoute DeepSeek V4 et Gemini 3.5

🚨 Breaking

Aucun breaking change aujourd'hui.

🗑️ Dépréciations

Aucune dépréciation annoncée.

💰 Pricing

Aucun mouvement tarifaire dans le brief du jour.

🆕 Nouveautés

llama.cpp b9330 — bug fix sur nemotron-h : ffn_latent_down/up sont déclarés GGML_OP_MUL dans LLM_TENSOR_INFOS mais acheminés via ggml_mul_mat. Le buft probe testait donc une opération elementwise MUL sur un poids q8_0 — cette vérification retournait true de façon inconditionnelle, ce qui pouvait placer le tenseur sur le mauvais backend sans erreur explicite. Fix : tag ffn_latent comme MUL_MAT. Si nemotron-h tourne dans ton stack llama.cpp, mise à jour prioritaire. b9330

llama.cpp b9329 — ajout d'un fast Walsh-Hadamard transform CUDA (unrolls, warp size 64). Gain potentiel selon les architectures. Pas d'API modifiée. b9329

Cline v3.85.0 — nouveaux modèles disponibles : DeepSeek V4 Flash et Pro, Gemini 3.5 Flash (providers Gemini et Vertex), GPT-5.5 pour SAP AI Core. Correction du routing Vertex AI global endpoint pour les modèles Claude. Si tu utilises Cline sur Vertex, vérifier le comportement Claude après mise à jour. v3.85.0

🌐 Actualité IA

HN — "Using AI to write better code more slowly" (295 pts, 117 commentaires) : signal communautaire fort sur l'arbitrage vitesse / qualité quand on code avec l'IA. Le débat porte sur la maintenabilité réelle du code produit sous assistance IA, pas sur le débit brut. lire

DVAO (HF Papers) — Dynamic Variance-adaptive Advantage Optimization : amélioration de GRPO (Group Relative Policy Optimization) pour les settings RL multi-reward sur LLM. Pertinent si tu fine-tunes avec RL. papier

💡 Conseil du jour

Si nemotron-h est dans ton stack llama.cpp, mets à jour vers b9330 maintenant. Le bug de buft probe était silencieux — pas de crash, pas d'erreur, juste un placement de tenseur incorrect sur le backend. Ce type de régression passe à travers les tests fonctionnels classiques.