Advisory 2026-06-01: llama.cpp b9444, MiniMax M3 (1M tokens), StepFun 3.7 Flash MoE

🚨 Breaking

Sin cambios críticos hoy. Tu código en producción no requiere ninguna intervención urgente.

🗑️ Deprecaciones

Ninguna deprecación activa en el brief de hoy.

💰 Precios

Sin movimientos de precios reportados.

🆕 Novedades

llama.cpp — builds b9436–b9444 (2026-05-30 y 31)

Seis builds en dos días. Lo que importa en producción:

b9444: el servidor gestiona ahora ETags débiles con If-None-Match. Si corres llama.cpp detrás de un proxy con caché HTTP (nginx, Caddy), este build evita invalidaciones innecesarias. (ver release)
b9441: corrección de truncado de ETag en builds con MSVC — afecta únicamente Windows. (ver release)
b9439: por defecto, llama.cpp usa ahora un solo dispositivo iGPU. Si tu hardware expone múltiples iGPUs integradas, verifica que el comportamiento de inferencia no cambió. (ver release)
b9437: llama-bench acepta -fa auto para Flash Attention; el valor por defecto de -ngl pasa a -1. (ver release)
b9436: soporte bf16 en OpenCL, convertido internamente a f16. (ver release)
b9442: nuevo tokenizador para jina-embeddings-v2-base-zh. (ver release)

MiniMax M3 — ventana de 1M tokens, multimodal

Disponible vía OpenRouter. Entradas: texto, imagen y vídeo. Salida: texto. Ventana de 1M tokens orientada a tareas agénticas de larga duración y codificación. El brief no incluye datos de precio. (openrouter.ai/models/minimax/minimax-m3)

StepFun Step 3.7 Flash — MoE multimodal de bajo costo de activación

196B parámetros totales, ~11B activados por inferencia. Incluye encoder de visión para imagen y vídeo. Perfil típico de modelo económico con capacidades multimodales nativas. El brief no incluye precio. (openrouter.ai/models/stepfun/step-3.7-flash)

🌐 Actualidad IA

Representation Forcing — modelos multimodales sin cuello de botella de VAE

Paper publicado hoy: propone una técnica para eliminar el VAE preentrenado y congelado de los modelos multimodales unificados (UMMs) sin degradar la calidad de generación de imágenes. Señal de evolución arquitectónica relevante para quienes evalúan modelos imagen-texto a futuro. (huggingface.co/papers/2605.31604)

LongTraceRL — razonamiento en contexto largo con RL verificable

Aprendizaje por refuerzo con recompensas verificables (RLVR) aplicado al problema de localizar e integrar información clave en contextos extensos con mucho contenido de distracción. Indica que los benchmarks de razonamiento largo seguirán subiendo. (huggingface.co/papers/2605.31584)

💡 Consejo del día

Si tienes llama.cpp server expuesto detrás de un proxy con caché HTTP, actualiza a b9444 hoy. La gestión correcta de ETags débiles evita que tu proxy invalide respuestas válidas y genere peticiones duplicadas al modelo — impacto directo en costo de cómputo y latencia.