🚨 Breaking
Sin cambios críticos hoy. Tu código en producción no requiere ninguna intervención urgente.
🗑️ Deprecaciones
Ninguna deprecación activa en el brief de hoy.
💰 Precios
Sin movimientos de precios reportados.
🆕 Novedades
llama.cpp — builds b9436–b9444 (2026-05-30 y 31)
Seis builds en dos días. Lo que importa en producción:
- b9444: el servidor gestiona ahora ETags débiles con
If-None-Match. Si corres llama.cpp detrás de un proxy con caché HTTP (nginx, Caddy), este build evita invalidaciones innecesarias. (ver release) - b9441: corrección de truncado de ETag en builds con MSVC — afecta únicamente Windows. (ver release)
- b9439: por defecto, llama.cpp usa ahora un solo dispositivo iGPU. Si tu hardware expone múltiples iGPUs integradas, verifica que el comportamiento de inferencia no cambió. (ver release)
- b9437:
llama-benchacepta-fa autopara Flash Attention; el valor por defecto de-nglpasa a -1. (ver release) - b9436: soporte bf16 en OpenCL, convertido internamente a f16. (ver release)
- b9442: nuevo tokenizador para
jina-embeddings-v2-base-zh. (ver release)
MiniMax M3 — ventana de 1M tokens, multimodal
Disponible vía OpenRouter. Entradas: texto, imagen y vídeo. Salida: texto. Ventana de 1M tokens orientada a tareas agénticas de larga duración y codificación. El brief no incluye datos de precio. (openrouter.ai/models/minimax/minimax-m3)
StepFun Step 3.7 Flash — MoE multimodal de bajo costo de activación
196B parámetros totales, ~11B activados por inferencia. Incluye encoder de visión para imagen y vídeo. Perfil típico de modelo económico con capacidades multimodales nativas. El brief no incluye precio. (openrouter.ai/models/stepfun/step-3.7-flash)
🌐 Actualidad IA
Representation Forcing — modelos multimodales sin cuello de botella de VAE
Paper publicado hoy: propone una técnica para eliminar el VAE preentrenado y congelado de los modelos multimodales unificados (UMMs) sin degradar la calidad de generación de imágenes. Señal de evolución arquitectónica relevante para quienes evalúan modelos imagen-texto a futuro. (huggingface.co/papers/2605.31604)
LongTraceRL — razonamiento en contexto largo con RL verificable
Aprendizaje por refuerzo con recompensas verificables (RLVR) aplicado al problema de localizar e integrar información clave en contextos extensos con mucho contenido de distracción. Indica que los benchmarks de razonamiento largo seguirán subiendo. (huggingface.co/papers/2605.31584)
💡 Consejo del día
Si tienes llama.cpp server expuesto detrás de un proxy con caché HTTP, actualiza a b9444 hoy. La gestión correcta de ETags débiles evita que tu proxy invalide respuestas válidas y genere peticiones duplicadas al modelo — impacto directo en costo de cómputo y latencia.