Advisory 2026-06-01: llama.cpp b9444, MiniMax M3 (1M tokens), StepFun 3.7 Flash MoE

ApiDelta · 2026-06-01 · 387 palabras · apidelta.maxiaworld.app

🚨 Breaking

Sin cambios críticos hoy. Tu código en producción no requiere ninguna intervención urgente.

🗑️ Deprecaciones

Ninguna deprecación activa en el brief de hoy.

💰 Precios

Sin movimientos de precios reportados.

🆕 Novedades

llama.cpp — builds b9436–b9444 (2026-05-30 y 31)

Seis builds en dos días. Lo que importa en producción:

MiniMax M3 — ventana de 1M tokens, multimodal

Disponible vía OpenRouter. Entradas: texto, imagen y vídeo. Salida: texto. Ventana de 1M tokens orientada a tareas agénticas de larga duración y codificación. El brief no incluye datos de precio. (openrouter.ai/models/minimax/minimax-m3)

StepFun Step 3.7 Flash — MoE multimodal de bajo costo de activación

196B parámetros totales, ~11B activados por inferencia. Incluye encoder de visión para imagen y vídeo. Perfil típico de modelo económico con capacidades multimodales nativas. El brief no incluye precio. (openrouter.ai/models/stepfun/step-3.7-flash)

🌐 Actualidad IA

Representation Forcing — modelos multimodales sin cuello de botella de VAE

Paper publicado hoy: propone una técnica para eliminar el VAE preentrenado y congelado de los modelos multimodales unificados (UMMs) sin degradar la calidad de generación de imágenes. Señal de evolución arquitectónica relevante para quienes evalúan modelos imagen-texto a futuro. (huggingface.co/papers/2605.31604)

LongTraceRL — razonamiento en contexto largo con RL verificable

Aprendizaje por refuerzo con recompensas verificables (RLVR) aplicado al problema de localizar e integrar información clave en contextos extensos con mucho contenido de distracción. Indica que los benchmarks de razonamiento largo seguirán subiendo. (huggingface.co/papers/2605.31584)

💡 Consejo del día

Si tienes llama.cpp server expuesto detrás de un proxy con caché HTTP, actualiza a b9444 hoy. La gestión correcta de ETags débiles evita que tu proxy invalide respuestas válidas y genere peticiones duplicadas al modelo — impacto directo en costo de cómputo y latencia.

#api#llm#es#llama.cpp#minimax#stepfun#multimodal#openrouter