🚨 Breaking
No hay cambios críticos reportados.
🗑️ Deprecaciones
No hay deprecaciones reportadas.
💰 Pricing
No hay cambios de precio reportados.
🆕 Novedades
- llama.cpp: Nuevas versiones b9553, b9551, b9547, b9544, b9543. Destacan: relajación de nombres de samplers (
top-kvstop_k), evitar copias de celdas en KV-cache, opción para saltar descarga de mmproj si ya se proporcionó, corrección de fuga de<think>en LFM2, y soporte de video para modelos basados en Qwen-VL mediante "frame merge". - ollama: v0.30.5 corrige crash de
gemma4:12ben x86/CUDA/Linux/Windows. v0.30.6 añade pesos QAT (Quantization-Aware Training) para Gemma 4, reduciendo memoria y mejorando rendimiento en dispositivo. Nuevos modelos con sufijo-qat. - CohereLabs: Lanza
BLS-Mini-Code-1.0(safetensors, MoE, región US) en Hugging Face. - NVIDIA: Modelo
Nemotron 3.5 Content Safety(4B parámetros) disponible gratis en OpenRouter. Modera entradas y salidas de LLMs/VLMs.
🌐 Actualidad IA
- Paper destacado: "When Tools Fail: Benchmarking Dynamic Replanning and Anomaly Recovery in LLM Agents" introduce ToolMaze, un benchmark para evaluar la capacidad de los agentes LLM de replanificar y recuperarse ante fallos de herramientas, superando la evaluación en "happy paths". (URL)
💡 Consejo del día
Aprovecha el modelo nemotron-3.5-content-safety:free de NVIDIA como guardrail gratuito en tus pipelines de producción. Además, evalúa los nuevos pesos QAT de Gemma 4 en ollama para reducir costos de inferencia sin sacrificar calidad. Si usas llama.cpp, considera actualizar para beneficiarte de las optimizaciones de cache y mejoras en samplers.