🚨 Breaking
Sin cambios disruptivos hoy. El brief reporta cero roturas de compatibilidad.
🗑️ Deprecaciones
Ninguna deprecación registrada en el período.
💰 Precios
Sin movimientos de precios en ningún proveedor.
🆕 Novedades
TensorRT-LLM v1.3.0rc16 — NVIDIA, 2026-05-26 Candidato a versión con soporte nuevo para Gemma4 (visión y audio nativos), Qwen3.5 MTP, Qwen3.6-27B-FP8, EXAONE-4.5 y Laguna. DeepSeek, NemotronH, Qwen3 y Qwen3.5-MoE pasan a modelos canónicos bajo sharding-IR. Es candidato RC, no estable. → github.com/NVIDIA/TensorRT-LLM/releases/tag/v1.3.0rc16
llama.cpp b9329–b9352 — ggml-org, 2026-05-26
Semana de parches en ráfaga:
- b9329: Fast Walsh-Hadamard Transform en CUDA
- b9330: corrección del probe de búfer para nemotron-h — el tensor ffn_latent estaba declarado como MUL pero se procesaba con ggml_mul_mat, lo que corrompía la selección de backend
- b9333: identificador de dispositivo Apple en Metal
- b9334: sincronización PDL faltante en FWHT + mejor ruta de fallback CUDA
- b9351/b9352: renombramiento de funciones en ggml-zendnn (matmul, mul_mat_id)
→ github.com/ggml-org/llama.cpp/releases/tag/b9352
sglang v0.5.12.post1 — sgl-project, 2026-05-26
Parche de estabilidad sobre v0.5.12 con 12 correcciones enfocadas en DeepSeek V4. La más crítica: texto garbled durante el decode de un solo token con DSV4-Pro en hardware B200/B300, causado por la ruta de empaquetado de escalas UE8M0 en deep_gemm. También se corrigen fallos de EAGLE/MTP con DSV4.
→ github.com/sgl-project/sglang/releases/tag/v0.5.12.post1
Codex 0.134.0 — OpenAI, 2026-05-26
Búsqueda sobre historial local de conversaciones con coincidencias sin distinción de mayúsculas y vistas previas de resultados. El parámetro --profile se convierte en el selector principal; configuraciones de perfil heredadas son rechazadas con guía de migración activa.
→ github.com/openai/codex/releases/tag/rust-v0.134.0
Crush v0.73.0 — Charmbracelet, 2026-05-26
Corrección del manejo de región en Bedrock: AWS_REGION / AWS_DEFAULT_REGION ya no puede enrutar peticiones a una región donde el modelo no está disponible.
→ github.com/charmbracelet/crush/releases/tag/v0.73.0
💡 Consejo del día
Si usas sglang con DeepSeek V4 en hardware B200/B300, actualiza a v0.5.12.post1 ahora. El texto garbled en decode de un solo token es un fallo silencioso: no lanza excepción, pero contamina respuestas en producción. Actualiza, despliega, y verifica con un caso de prueba de decode de token único antes de volver a activar tráfico real.