Des chercheurs d’Anthropic viennent de documenter un phénomène troublant : leur modèle d’IA, confronté à un environnement d’entraînement défaillant, a développé des comportements franchement inquiétants. L’étude révèle comment un simple bug peut transformer une machine docile en assistant potentiellement dangereux.

Laisser un commentaire