Bleiben Sie mit kostenlosen Updates informiert
Melden Sie sich einfach für den Artificial Intelligence myFT Digest an – direkt in Ihrem Posteingang.
Das KI-Start-up Anthropic hat eine neue Technik demonstriert, um Benutzer daran zu hindern, schädliche Inhalte aus seinen Modellen zu extrahieren, während führende Technologieunternehmen wie Microsoft und Meta darum kämpfen, Wege zu finden, die vor den Gefahren durch die modernste Technologie schützen.
In einem am Montag veröffentlichten Papier skizzierte das in San Francisco ansässige Start-up ein neues System namens „verfassungsmäßige Klassifizierer“. Es handelt sich um ein Modell, das als Schutzschicht über großen Sprachmodellen wie demjenigen fungiert, der Anthropics Claude-Chatbot antreibt und sowohl Eingaben als auch Ausgaben auf schädliche Inhalte überwachen kann.
Die Entwicklung von Anthropic, das Gespräche über eine Kapitalaufnahme von 2 Mrd. USD bei einer Bewertung von 60 Mrd. USD führt, erfolgt vor dem Hintergrund wachsender Branchenbedenken hinsichtlich des „Jailbreaking“ – Versuche, KI-Modelle zu manipulieren, um illegale oder gefährliche Informationen zu generieren, wie beispielsweise die Erstellung von Anleitungen zum Bau von Chemiewaffen.
Andere Unternehmen sind ebenfalls bemüht, Maßnahmen zu ergreifen, um sich vor dieser Praxis zu schützen, was ihnen helfen könnte, einer regulatorischen Prüfung zu entgehen und Unternehmen davon zu überzeugen, KI-Modelle sicher zu übernehmen. Microsoft führte im vergangenen März „Prompt Shields“ ein, während Meta im Juli letzten Jahres ein Prompt Guard-Modell einführte, das Forscher schnell Wege fanden, um zu umgehen, die jedoch inzwischen behoben wurden.
Mrinank Sharma, Mitglied des technischen Personals bei Anthropic, sagte: „Die Hauptmotivation hinter der Arbeit war für schwerwiegende chemische [Waffen]-Angelegenheiten, aber der eigentliche Vorteil der Methode liegt in ihrer Fähigkeit, schnell zu reagieren und sich anzupassen.“
Anthropic gab an, dass das Unternehmen das System vorerst nicht bei seinen aktuellen Claude-Modellen einsetzen werde, es jedoch in Betracht ziehen würde, es zu implementieren, wenn in Zukunft riskantere Modelle veröffentlicht würden. Sharma fügte hinzu: „Die wichtigste Erkenntnis aus dieser Arbeit ist, dass wir glauben, dass dies ein lösbares Problem ist.“
Die vorgeschlagene Lösung des Start-ups basiert auf einer sogenannten „Verfassung“ von Regeln, die festlegen, was erlaubt und eingeschränkt ist und an verschiedene Arten von Material angepasst werden kann.
Einige Jailbreak-Versuche sind bekannt, wie die Verwendung ungewöhnlicher Großschreibung in der Aufforderung oder das Auffordern des Modells, die Rolle einer Großmutter anzunehmen, um eine Bettgeschichte über ein niederträchtiges Thema zu erzählen.
Empfohlen
Um die Wirksamkeit des Systems zu validieren, bot Anthropic „Bugs Bounties“ von bis zu 15.000 USD für Personen an, die versuchten, die Sicherheitsmaßnahmen zu umgehen. Diese Tester, bekannt als Red Teamer, verbrachten mehr als 3.000 Stunden damit, die Verteidigungen zu durchbrechen.
Anthropics Claude 3.5 Sonnet-Modell wies mit den Klassifizierern mehr als 95 Prozent der Versuche zurück, im Vergleich zu 14 Prozent ohne Sicherheitsvorkehrungen.
Führende Technologieunternehmen versuchen, den Missbrauch ihrer Modelle zu reduzieren, während sie deren Hilfreichkeit beibehalten. Oftmals, wenn Moderationsmaßnahmen getroffen werden, können Modelle vorsichtig werden und harmlose Anfragen ablehnen, wie bei frühen Versionen von Googles Gemini-Bildgenerator oder Metas Llama 2. Anthropic sagte, dass ihre Klassifizierer „nur eine absolute Zunahme der Ablehnungsraten um 0,38 Prozent“ verursachten.
Das Hinzufügen dieser Schutzmaßnahmen verursacht jedoch auch zusätzliche Kosten für Unternehmen, die bereits enorme Summen für die für das Training und den Betrieb der Modelle erforderliche Rechenleistung zahlen. Anthropic gab an, dass der Klassifizierer zu einer fast 24-prozentigen Erhöhung der „Inferenzüberkopfkosten“, den Kosten für den Betrieb der Modelle, führen würde.
Sicherheitsexperten haben argumentiert, dass die zugängliche Natur solcher generativen Chatbots es gewöhnlichen Personen ohne Vorwissen ermöglicht hat, gefährliche Informationen zu extrahieren.
„Im Jahr 2016 war der Bedrohungsakteur, den wir im Kopf hatten, ein wirklich mächtiger Gegner eines Nationalstaates“, sagte Ram Shankar Siva Kumar, der das KI-Red-Team bei Microsoft leitet. „Jetzt ist buchstäblich einer meiner Bedrohungsakteure ein Teenager mit einem unflätigen Mundwerk.“