Advisory diario: llama.cpp b9553, ollama v0.30.6, y modelo gratuito de seguridad NVIDIA

🚨 Breaking

No hay cambios críticos reportados.

🗑️ Deprecaciones

No hay deprecaciones reportadas.

💰 Pricing

No hay cambios de precio reportados.

🆕 Novedades

llama.cpp: Nuevas versiones b9553, b9551, b9547, b9544, b9543. Destacan: relajación de nombres de samplers (top-k vs top_k), evitar copias de celdas en KV-cache, opción para saltar descarga de mmproj si ya se proporcionó, corrección de fuga de <think> en LFM2, y soporte de video para modelos basados en Qwen-VL mediante "frame merge".
ollama: v0.30.5 corrige crash de gemma4:12b en x86/CUDA/Linux/Windows. v0.30.6 añade pesos QAT (Quantization-Aware Training) para Gemma 4, reduciendo memoria y mejorando rendimiento en dispositivo. Nuevos modelos con sufijo -qat.
CohereLabs: Lanza BLS-Mini-Code-1.0 (safetensors, MoE, región US) en Hugging Face.
NVIDIA: Modelo Nemotron 3.5 Content Safety (4B parámetros) disponible gratis en OpenRouter. Modera entradas y salidas de LLMs/VLMs.

🌐 Actualidad IA

Paper destacado: "When Tools Fail: Benchmarking Dynamic Replanning and Anomaly Recovery in LLM Agents" introduce ToolMaze, un benchmark para evaluar la capacidad de los agentes LLM de replanificar y recuperarse ante fallos de herramientas, superando la evaluación en "happy paths". (URL)

💡 Consejo del día

Aprovecha el modelo nemotron-3.5-content-safety:free de NVIDIA como guardrail gratuito en tus pipelines de producción. Además, evalúa los nuevos pesos QAT de Gemma 4 en ollama para reducir costos de inferencia sin sacrificar calidad. Si usas llama.cpp, considera actualizar para beneficiarte de las optimizaciones de cache y mejoras en samplers.