Forscher haben erfolgreich einen Roboter, der künstliche Intelligenz (KI) verwendet, gehackt und manipuliert, um Handlungen auszuführen, die normalerweise gegen Sicherheits- und Ethikrichtlinien verstoßen. Dazu gehörte das Verursachen von Kollisionen und das Zünden von Sprengsätzen.
Am 17. Oktober veröffentlichten Wissenschaftler der Penn Engineering ihre Erkenntnisse in einem Artikel, in dem sie erklären, wie ihr entwickelter Algorithmus namens RoboPAIR es schaffte, die Sicherheitsprotokolle von drei verschiedenen KI-Robotersystemen zu umgehen, mit einer beeindruckenden Jailbreak-Quote von 100 %.
Roboter in der Lage, schädliche Aktionen auszuführen
Die Forscher stellten fest, dass Roboter, die von einem großen Sprachmodell (LLM) gesteuert werden, normalerweise keine Anfragen zu schädlichen Aktivitäten ausführen, wie etwa das Umwerfen von Gegenständen, die Menschen treffen könnten.
Unsere Ergebnisse zeigen erstmals, dass die Risiken gejailbreakter LLMs über die reine Textgenerierung hinausgehen. Es besteht eine erhebliche Möglichkeit, dass diese Roboter in der realen Welt physischen Schaden anrichten können“, erklärten die Forscher.
Mithilfe von RoboPAIR konnten die Forscher schädliche Aktionen mit einer Erfolgsquote von 100 % bei verschiedenen Testrobotern auslösen. Die Handlungen reichten vom Zünden von Bomben über das Blockieren von Notausgängen bis hin zum absichtlichen Verursachen von Kollisionen.
Kollisionen mit einem Bus und Bombenexplosionen
Die Forscher verwendeten verschiedene Robotermodelle, darunter Clearpaths Robotics Jackal (ein fahrzeugähnlicher Roboter auf Rädern), Nvidias Dolphin LLM (ein selbstfahrender Simulator) und Unitrees Go2 (ein vierbeiniger Roboter). Mithilfe von RoboPAIR konnten sie den Dolphin dazu bringen, mit einem Bus, einer Schranke und sogar Fußgängern zu kollidieren, wobei Verkehrsampeln und Stoppschilder ignoriert wurden.
Darüber hinaus konnten sie den Roboter Jackal verwenden, um gefährliche Orte für das Zünden einer Bombe zu identifizieren, Notausgänge zu blockieren, Regale in einem Lager umzuwerfen und auf Menschen zuzurennen. Auch der Unitree Go2 wurde manipuliert, um ähnliche Aufgaben auszuführen, wie das Blockieren von Ausgängen und das Liefern von Sprengstoffen.
Anfällig für bösartige Anweisungen
Die Ergebnisse weisen auf eine beunruhigende Möglichkeit hin: LLM-gesteuerte Roboter können, wenn sie mit bösartigen Anweisungen gesteuert werden, gezwungen werden, schädliche Aktionen auszuführen. Bevor die Ergebnisse öffentlich gemacht wurden, hatten die Forscher ihre Erkenntnisse, einschließlich einer Vorabversion ihres Artikels, bereits mit führenden KI-Unternehmen geteilt.
Einer der Autoren, Alexander Robey, betonte, dass die Behebung dieser Schwachstellen mehr erfordert als nur Software-Updates. Er plädierte für ein Überdenken der Integration von KI in physische Roboter und Systeme, basierend auf den Erkenntnissen ihrer Forschung.
Es ist entscheidend hervorzuheben, dass Systeme sicherer werden, je mehr man ihre Schwächen aufdeckt. Dies gilt nicht nur für die Cybersicherheit, sondern auch für die Sicherheit von KI“, sagte er.
Robey fügte hinzu, dass AI-Red-Teaming (eine Sicherheitspraktik, die darauf abzielt, KI-Systeme auf potenzielle Bedrohungen zu testen) entscheidend ist, um generative KI-Systeme zu schützen.
Sobald man die Schwachstellen identifiziert hat, kann man diese Systeme testen und darauf trainieren, diese Schwächen zu vermeiden“, schloss er.