Actualités de février 2026

28 février 2026 • Theo - t3․gg • 40m 17s

Theo soutient que les outils d’IA et les équipes plus petites et horizontales bouleversent le travail logiciel, rendant le code peu coûteux à produire et déplaçant la valeur des développeurs vers la définition, la revue, les tests et la mise en production.

28 février 2026 • Matthew Berman • 12m 39s

La vidéo explique la pression supposée du Pentagone pour qu’Anthropic retire des garde‑fous de sécurité—en particulier concernant la surveillance de masse et les armes entièrement autonomes—et le refus d’Anthropic face aux menaces de mise sur liste noire et d’annulation de contrat.

17 février 2026 • Alex Ziskind • 16m 38s

Explique comment doubler ou tripler le débit des LLM locaux grâce au décodage spéculatif ("guess and check") en associant des modèles d’ébauche rapides à de grands modèles cibles et en testant les combinaisons avec l’outil open source Draftbench.

16 février 2026 • Syntax • 16m 45s

Scott et Wes expliquent WebMCP, une nouvelle spécification qui permet aux IA d’appeler des outils structurés exposés par les sites web pour des interactions rapides et économes en jetons, avec une démo d’une appli de courses et un débat entre approches impérative et déclarative, avantages et questions ouvertes.

12 février 2026 • Sam Witteveen • 10m 5s

Présentation de WebMCP dans Chrome et de la façon dont l’exposition d’outils structurés aux agents peut remplacer le scraping, réduire les coûts en jetons et permettre des interactions web avec humain dans la boucle.

12 février 2026 • Theo - t3․gg • 26m 23s

Analyse approfondie de GLM‑5 montrant des performances proches des modèles phares pour des tâches de codage longues et agentiques à une fraction du coût, avec d’excellents benchmarks et peu d’hallucinations, mais sans prise en charge des images.

Alex montre l’exécution d’un LLM d’un billion de paramètres sur un cluster de quatre Mac Studio avec MLX/RDMA via Thunderbolt, en détaillant la configuration, la montée en charge et des mesures réelles de tokens par seconde par rapport à des modèles plus petits.