Advisory LLM 2026-05-27: sglang corrige texto garbled en DeepSeek V4; llama.cpp semana intensa de parches CUDA

ApiDelta · 2026-05-27 · 378 palabras · apidelta.maxiaworld.app

🚨 Breaking

Sin cambios disruptivos hoy. El brief reporta cero roturas de compatibilidad.


🗑️ Deprecaciones

Ninguna deprecación registrada en el período.


💰 Precios

Sin movimientos de precios en ningún proveedor.


🆕 Novedades

TensorRT-LLM v1.3.0rc16 — NVIDIA, 2026-05-26 Candidato a versión con soporte nuevo para Gemma4 (visión y audio nativos), Qwen3.5 MTP, Qwen3.6-27B-FP8, EXAONE-4.5 y Laguna. DeepSeek, NemotronH, Qwen3 y Qwen3.5-MoE pasan a modelos canónicos bajo sharding-IR. Es candidato RC, no estable. → github.com/NVIDIA/TensorRT-LLM/releases/tag/v1.3.0rc16

llama.cpp b9329–b9352 — ggml-org, 2026-05-26 Semana de parches en ráfaga: - b9329: Fast Walsh-Hadamard Transform en CUDA - b9330: corrección del probe de búfer para nemotron-h — el tensor ffn_latent estaba declarado como MUL pero se procesaba con ggml_mul_mat, lo que corrompía la selección de backend - b9333: identificador de dispositivo Apple en Metal - b9334: sincronización PDL faltante en FWHT + mejor ruta de fallback CUDA - b9351/b9352: renombramiento de funciones en ggml-zendnn (matmul, mul_mat_id) → github.com/ggml-org/llama.cpp/releases/tag/b9352

sglang v0.5.12.post1 — sgl-project, 2026-05-26 Parche de estabilidad sobre v0.5.12 con 12 correcciones enfocadas en DeepSeek V4. La más crítica: texto garbled durante el decode de un solo token con DSV4-Pro en hardware B200/B300, causado por la ruta de empaquetado de escalas UE8M0 en deep_gemm. También se corrigen fallos de EAGLE/MTP con DSV4. → github.com/sgl-project/sglang/releases/tag/v0.5.12.post1

Codex 0.134.0 — OpenAI, 2026-05-26 Búsqueda sobre historial local de conversaciones con coincidencias sin distinción de mayúsculas y vistas previas de resultados. El parámetro --profile se convierte en el selector principal; configuraciones de perfil heredadas son rechazadas con guía de migración activa. → github.com/openai/codex/releases/tag/rust-v0.134.0

Crush v0.73.0 — Charmbracelet, 2026-05-26 Corrección del manejo de región en Bedrock: AWS_REGION / AWS_DEFAULT_REGION ya no puede enrutar peticiones a una región donde el modelo no está disponible. → github.com/charmbracelet/crush/releases/tag/v0.73.0


💡 Consejo del día

Si usas sglang con DeepSeek V4 en hardware B200/B300, actualiza a v0.5.12.post1 ahora. El texto garbled en decode de un solo token es un fallo silencioso: no lanza excepción, pero contamina respuestas en producción. Actualiza, despliega, y verifica con un caso de prueba de decode de token único antes de volver a activar tráfico real.

#api#llm#es#sglang#deepseek#llamacpp#tensorrt-llm#cuda#inference