🆕 Nouveautés
Anthropic API – Détail des tokens de réflexion
Depuis le 27 mai 2026, la réponse de l'API Messages inclut usage.output_tokens_details.thinking_tokens. Ce champ indique le nombre de tokens de sortie facturés qui ont été utilisés pour le mode extended thinking. En streaming, la ventilation n'apparaît que sur le dernier événement message_delta. Aucun en-tête beta requis.
Impact immédiat : vous pouvez maintenant suivre précisément le coût des tokens de réflexion, utile pour optimiser les prompts et budgéter les usages intensifs de raisonnement. Pensez à logger cette donnée pour vos dashboards.
Qwen3.7 Plus – Nouveau modèle multimodal économique
Alibaba (Qwen) a publié Qwen3.7 Plus, un modèle texte-image entrée, texte sortie. Il se positionne comme un concurrent cost-effective dans la série Qwen3.7, avec des capacités multimodales étendues.
Quand l'utiliser ? : Pour vos pipelines de vision+langage (analyse d'image, extraction de texte, etc.) où le budget est une contrainte. Comparer les performances sur vos benchmarks maison avant de remplacer un modèle plus cher.
💡 Conseil du jour
Profitez de l'ajout thinking_tokens chez Anthropic pour enrichir vos métriques de monitoring : ajoutez un compteur distinct pour les tokens de réflexion dans vos logs. Cela vous permettra de détecter les prompts qui consomment excessivement cette capacité et d'ajuster vos templates. Couplé au nouveau Qwen3.7 Plus, c'est le moment de diversifier vos providers pour optimiser coûts et performances.