septembre 2025
Un tour d’horizon de la sortie de Sonnet 4.5 par Anthropic, montrant qu’elle s’inscrit dans une ambition plus large de « collaborateur virtuel », avec des progrès en performance de code, capacités agentiques (Claude Agent SDK), usage de l’ordinateur et exécutions longues guidées par des plans.
Theo passe en revue Claude Sonnet 4.5 d’Anthropic, en évaluant ses progrès en codage, agents et sécurité par rapport aux versions précédentes de Claude et aux modèles GPT, et conclut que c’est le modèle le plus agréable pour coder malgré une génération d’UI plus faible.
Scott de Syntax interviewe la Dr Sarah Bird chez Microsoft sur ce que signifie l’IA responsable pour les développeurs — confidentialité, sécurité par défaut, supervision humaine, modèles locaux vs cloud, risques (défaillance, mésusage, systémiques) et comment construire une IA digne de confiance.
Theo explore « cursed lang », un langage façon Go avec du slang Gen Z, auto‑généré en faisant tourner Claude en boucle pendant trois mois ; il teste des fonctions comme les identifiants en emoji, corrige des builds et réfléchit au développement piloté par l’IA.
Alex Ziskind analyse le DGX Spark de NVIDIA et ses retards—architecture Grace Blackwell GB10 annoncée, avantages FP4/FP8, fonctions de clustering et atouts de l’écosystème CUDA—en se demandant si ce mini superordinateur d’IA à 4 000 $ vaut encore la peine d’être attendu.
Theo - t3․gg explique l’autopsie d’Anthropic sur trois bogues d’infrastructure qui se sont chevauchés—un routage vers des serveurs à contexte 1M, une corruption de sortie sur TPU et un problème XLA top‑K—ayant dégradé la qualité de Claude en août‑septembre, ainsi que les correctifs et changements de processus qui ont suivi.
GosuCoder passe en revue la dernière mise à jour de Qwen 3 Max, montrant de solides performances en code, une grande précision d’appel d’outils, des vitesses plus élevées et un rendu UI amélioré qui met Claude Sonnet d’Anthropic sous pression sur le prix et les capacités.
Jack Herrington montre comment créer un client MCP UI simple dans TanStack Start pour afficher en toute sécurité les réponses iframe d’un serveur MCP externe en utilisant le format de ressource MCP UI et le renderer React.
Theo - t3.gg explique pourquoi Grok 4 Fast est un successeur étonnamment performant, rapide et ultra économique à Grok 4, surpassant plusieurs benchmarks tout en étant bien moins cher et plus pratique à utiliser.
GosuCoder évalue GPT‑5 Codex : de bons résultats en code et refactorisation, mais souvent 2–3× plus lent que GPT‑5, recommandant Codex Low pour un usage pratique.
Syntax classe les principaux assistants de codage IA d’aujourd’hui — Cursor, VS Code + Copilot, Windsurf, Kira, Claude Code, Opencode, Gemini, Qwen, Codex, v0, Bolt.new, Replit, Lovable, ChatGPT et Warp — en débattant des forces, de l’UX, des modes de planification et de la fiabilité réelle.
Theo passe en revue le nouveau modèle GPT-5 Codex d’OpenAI pour le codage agentique, saluant son efficacité en jetons et ses atouts en revue de code tout en critiquant les faiblesses de recherche et d’UX des outils Codex.
Jack Herrington explique pourquoi il passe de Claude Code à Cursor CLI, en montrant l’installation, le changement de modèles, l’intégration MCP, les différences CLI vs application de bureau, les invites non interactives et des flux de travail pratiques, avec des réserves sur les bogues de la version bêta.
Alex présente sa stack et son workflow de développeur piloté par l’IA—outils, configuration optimale (memory bank, rules, templates) et démo live pour corriger un bug et ajouter une feature—en montrant comment planifier puis builder pour livrer un code propre et de haute qualité plus vite.
Alex so yes teste OpenCode avec le nouveau modèle de code Grok de xAI pour déboguer un vrai problème du projet AIDD, explorer le standard AGENTS.md et montrer comment des workflows en ligne de commande et agnostiques des providers peuvent accélérer le code tout en réduisant la dépendance aux IDE.
Theo explique que les récentes acquisitions d’OpenAI (comme Statsig et Alex) visent surtout à intégrer des équipes alignées et immédiatement opérationnelles ainsi qu’un leadership produit pour accélérer les applications et les outils développeurs sans perturber la recherche cœur.
Convex montre comment créer et déployer rapidement un clone de Twitter/X avec Claude Code et les requêtes, mutations, actions et stockage de Convex (type-safe de bout en bout)—authentification, profils, téléversement d’images, publication, likes, retweets, favoris, messages privés, notifications et déploiement—le tout en environ 20 à 40 minutes.
Cette vidéo passe en revue la mise à jour 0905 de Kimi K2 — contexte porté à 262K, meilleurs résultats en front-end/génération de code — et compare vitesse, fiabilité et coûts du prompt caching selon les fournisseurs (OpenRouter, Groq), avec démos et analyses de coûts/latence.
Analyse de la levée de 13 Md$ d’Anthropic à 183 Md$ de valorisation post‑money, comparant dilution, stratégie d’investisseurs, coûts de calcul et dynamique concurrentielle face à OpenAI et Google.
Une démonstration de la façon dont MCP-UI permet aux outils de renvoyer une interface complète (HTML/JS/iframes) et de la création d’un serveur MCP-UI avec TanStack Start, testé avec l’Inspector MCP-UI et affichant une carte en iframe dans Goose.
Un retour d’expérience sur l’exécution de modèles MoE locaux pour le code, comme Qwen 3 235B, sur le Framework Desktop : débits (TPS) et contextes, limites des workflows agentiques, et un prototype d’éditeur local qui applique des diffs générés par l’IA directement aux fichiers.
Theo soutient que le vibe coding est utile pour produire rapidement du code jetable ou destiné à devenir du legacy, tout en rappelant qu’il faut toujours comprendre comment le code fonctionne; l’IA doit augmenter les ingénieurs compétents, pas les remplacer.