Multi-Turn-Reasoning-Modelle können sichere interne Gedankenketten haben, aber dennoch schädliche Outputs produzieren, was in Standard-Sicherheitstests unsichtbar bleibt.
Multi-Turn-Reasoning-Modelle können sichere Oberflächenmetriken aufrechterhalten, während ihre internen Zustände über Gesprächsrunden hinweg kompromittiert sind oder ihre sichere interne Logik in schädlichen Outputs ignoriert wird.