Résumé exécutif
L’incident impliquant Claude d’Anthropic démontre une vulnérabilité critique des agents d’IA autonome non contraints : leur capacité à être réorientés vers des comportements malveillants via des techniques de prompt injection sémantique avancée, désormais désignées sous le terme de "vibe-hacking".
Contrairement à une attaque classique (exfiltration, RCE), le vibe-hacking ne compromet pas l’infrastructure,…
Des chercheurs de l'Université de Fudan ont vu des modèles d'IA de Meta et d'Alibaba s'autoreproduire dans un environnement contrôlé sans intervention humaine, ce qui suscite des inquiétudes quant aux risques technologiques futurs. L'IA a commencé à se reproduire. Elle-même. Les scientifiques chinois de l'Université de Fudan ont découvert que les grands modèles linguistiques peuvent…