août 2025

Un stress test en direct du contexte à 1M de jetons de Claude Sonnet 4 dans Cursor construit un éditeur de transcription, plante à cause de phases incomplètes et montre comment un seul appel d’outil MCP peut consommer silencieusement ~800k jetons et faire chuter les performances.

30 août 2025 • Ray Fernando

Démo du nouveau modèle temps réel d’OpenAI montrant des interactions vocales naturelles et audacieuses, un traitement unifié de la parole et des fonctions pour développeurs comme l’entrée d’images, les appels SIP, l’intégration MCP et l’exécution asynchrone de fonctions.

Tom Ballinger montre comment les types de bout en bout de Convex et une application de chat propulsée par MCP permettent des workflows d’agents plus sûrs et plus prévisibles, tout en mettant en avant les risques comme l’injection de prompts, les flux de jetons et la conception des permissions.

Web Dev Cody crée une appli full‑stack type YouTube avec du codage agentique via Claude et Cursor, intégrant Cloudinary pour les uploads, chapitres, transcriptions et aperçus, et ajoute profils, tags, abonnements, commentaires, likes, notifications et vidéos liées tout en démontrant un flux de travail assisté par l’IA.

29 août 2025 • GosuCoder

Un test pratique de GPT-5 avec Codex IDE, Remote Agents et CLI met en avant des performances plus rapides, une génération de code de haute qualité et des flux locaux–cloud fluides, tout en pointant des manques de fonctionnalités et des irritants UX comme l’approbation obligatoire des fichiers et une sortie CLI bruyante.

Le créateur évalue si des LLM locaux peuvent gérer le développement quotidien en comparant GLM 4.5 Air, Qwen 3 Coder, GPT OSS 120B et d'autres sur un Framework Desktop et un RTX 5090, et conclut qu'un flux hybride—petits modèles rapides pour l'exécution et grands modèles lents pour la planification sans boucles agentiques—est le plus efficace.

Prise en main des cartes Framework Desktop avec AMD Ryzen AI Max+ 395 pour exécuter de grands modèles d’IA en local en silence, avec benchmarks des modes mémoire, performances Vulkan vs ROCm et comparaisons avec Apple M4/M4 Max et GMKTEC Evo X2.

Une démonstration pratique montrant comment créer et orchestrer des sous-agents spécialisés de Claude pour refactorer l’UI d’une application réelle, exécuter des revues itératives et automatiser des corrections sur desktop et mobile avec des fenêtres de contexte séparées.

24 août 2025 • GosuCoder • 16m 48s

Un test pratique de DeepSeek v3.1 montre de gros progrès en appel d’outils structuré et en workflows de code (notamment via Claude Code), des capacités agentiques plus efficaces et de meilleurs benchmarks, mais avec un débit lent et des problèmes ponctuels comme des chaînes chinoises inattendues dans le code.

22 août 2025 • Theo - t3.gg • 46m 44s

Theo explique pourquoi le lancement chaotique de GPT‑5 a semblé décevant—soutenant que le modèle est solide mais freiné par le routage et l’UX de couches comme ChatGPT et Cursor—et compare ses capacités réelles à celles des concurrents pour le code et les tâches longues avec outils.

21 août 2025 • Debbie O'Brien • 6m 53s

Démonstration de l’extension navigateur Playwright MCP montrant comment se connecter à un profil Chrome/Edge déjà connecté afin qu’un agent exécute des tests sur des sessions authentifiées et effectue des modifications sans partager d’identifiants.

18 août 2025 • Grafikart.fr • 30m 34s

Un test en français de GPT‑5 sur trois tâches de dev réelles—CRUD Laravel avec guidelines, une grille de mots en React et un prototype du jeu de société Lacuna—mettant en avant forces, limites et flux d’agents dans JetBrains.

18 août 2025 • GosuCoder • 24m 1s

Le créateur compare Qwen 3 Coder 30B à DevStral Small et GPT OSS 20B, montrant une forte fiabilité des appels d’outils, un débit élevé de jetons et des démos de code pratiques sur un RTX 5090.

15 août 2025 • Web Dev Cody • 24m 17s

Web Dev Cody compare GPT-5 et Claude Opus pour le codage agentique en implémentant un drapeau d’accès anticipé et une page d’accueil, en discutant de la vitesse, de la fiabilité et des stratégies de prompt.

14 août 2025 • Theo - t3.gg • 31m 27s

Theo explique en quoi sa première expérience positive avec GPT‑5 différait du déploiement public, détaille les erreurs de lancement, la dégradation des performances dans les outils et précise qu’il n’a pas été rémunéré.

14 août 2025 • GosuCoder • 14m 57s

Un retour d’expérience sur GLM 4.5 pour le code montre qu’il est rapide, efficace et excellent pour de petites tâches orientées UI, mais limité par sa fenêtre de contexte et des coûts possibles sur des enchaînements plus longs.

13 août 2025 • Web Dev Cody • 5m 28s

Une démo rapide explique comment utiliser les hooks de Claude Code pour déclencher une notification vocale personnalisée générée par IA à la fin d’une exécution d’agent, avec OpenAI pour le texte et ElevenLabs pour la synthèse vocale, ainsi qu’un bref tour des événements de hooks et des matchers.

Après environ 50 millions de jetons avec GPT‑5, l’auteur montre que configurer faible raisonnement et faible verbosité accélère fortement les workflows de code par rapport au raisonnement moyen, tout en opposant les points forts de GPT‑5 (suivre des specs précises, débogage) et ses limites (idéation, refactorings vagues) face à Sonnet et autres.

11 août 2025 • Theo - t3.gg • 20m 25s

Un regard critique sur les pratiques d’Anthropic concernant les restrictions d’accès, l’open source, les prix et les relations développeurs, en affirmant que leur avantage s’estompe face à la nouvelle concurrence.

10 août 2025 • Theo - t3.gg • 43m 19s

Theo explique que le code n’a jamais été le goulot d’étranglement et montre comment utiliser l’IA pour prototyper, itérer et valider rapidement les idées afin d’améliorer la compréhension d’équipe et le résultat produit plutôt que de générer du code de production.

9 août 2025 • Convex • 27m 55s

Un ingénieur de Convex compare GPT-5 et Claude Sonnet en construisant une application Morpion multijoueur en TypeScript avec un backend Convex, révélant des points forts en génération de code, des bizarreries d’appel d’outils, des différences d’UI et des résultats mitigés lors de l’ajout de l’authentification.

8 août 2025 • GosuCoder • 18m 29s

Un benchmark pratique de GPT‑5 sur 10 assistants de code montre un modèle de programmation solide et abordable qui atteint la barre des 25k sans prendre la première place, avec des bizarreries notables dans les longues boucles d’agent, la gestion d’environnement et quelques appels d’outils imprévus.

Un test pratique des modèles MoE à poids ouverts 120B et 20B d’OpenAI montre une grande vitesse et un raisonnement correct en discussion, mais des performances incohérentes et peu fiables pour le codage agentique et l’usage d’outils selon les fournisseurs et les températures.

6 août 2025 • Theo - t3.gg • 30m 35s

Theo analyse les nouveaux modèles open‑weights de 120B et 20B d’OpenAI, en testant les performances locales et cloud, la fiabilité des outils, les benchmarks et les compromis pratiques pour les développeurs.

Comment exécuter de très grands LLM sur des systèmes AMD Strix Halo sous Linux grâce à la mémoire unifiée, avec étapes pratiques de configuration, compromis Vulkan/ROCm et benchmarks sur un HP Z2 Mini G1a.

5 août 2025 • Alex so yes • 39m 4s

Une masterclass en français explique l’installation, la configuration et l’usage de Claude Code dans VS Code et en CLI—commandes, mémoire, MCP, agents parallèles et mode YOLO sécurisé pour accélérer les workflows de dev réels.

Une présentation expliquant comment créer des workflows d’agents IA en temps réel et orientés code sur Convex avec TypeScript, couvrant fils de discussion, streaming de messages, récupération de contexte, RAG, limitation de débit et workflows durables pouvant être mis en pause, repris et mis à l’échelle.

Un test pratique évalue l’abonnement Qwen 3 Coder de Cerebras : appels d’outils solides et légère perte de qualité en FP8, mais un débit réel bien inférieur aux 2 000 tokens/s annoncés et des limites quotidiennes de tokens qui conditionnent l’usage.

2 août 2025 • James Q Quick • 1h 59s

Une session en direct où le terminal agentique Warp sert à créer l’ossature d’une extension Chrome et d’un backend TypeScript/Express, en démontrant des workflows d’agents en parallèle, des diffs intégrés, un suivi des tâches et une fonctionnalité de traduction de ton en temps réel.

1 août 2025 • Grafikart.fr • 35m 37s

Un guide pratique qui explique le MCP (Models-Context-Protocol) et montre comment implémenter un serveur (HTTP + JSON-RPC) avec ressources, outils et prompts, puis le tester avec un inspecteur, VS Code Copilot et Gemini.