Google Gemini Pro 3 złamane w kilka minut. Asystent podyktował badaczom przepis na bojowy środek trujący
Modele generatywnej sztucznej inteligencji nieraz pokazały, że nie grzeszą… inteligencją i dając się podjeść w dziecinny sposób. Ostatnia wpadka Google Gemini 3 daje w tym temacie sporo do myślenia.
Gdy tylko na rynku pojawiły się modele takie jak ChatGPT czy Copilot, użytkownicy na wszelkie sposoby próbowali zmusić tych asystentów do robienia złych rzeczy. Swego czasu głośno było o tym, że ten czy inny, odpowiednio zmanipulowany LLM generuje działające klucze systemu Windows. Nie brakowało też historii, w których podstępni klienci usługi Open AI dopytywali, jak zatrzeć ślady po popełnionym przestępstwie. W początkowej fazie, modele AI można było oszukać w niezwykle banalny sposób argumentując, że przepis na skonstruowanie bomby miała nam przekazać babka na łożu śmierci i zależy nam na zachowaniu tego wspomnienia, lub że nie chodzi wcale o ukrycie zwłok człowieka, ale kilkudziesięciokilogramowego kurczaka. Dostawcy modeli AI obiecali wprowadzić odpowiednie zabezpieczenia, ale póki co ich skuteczność wydaje się wątpliwa.
Potężny Google Gemini Pro 3 dał się podejść w kilka minut
Południowokoreańscy badacze zajmujący się zawodowo (w dobrej wierze) łamaniem etycznych zabezpieczeń LLM’ów poddali w ostatnim czasie próbie najnowszy LLM Google’a Gemini Pro 3. Niestety, jak donosi jeden z największych koreańskich portali informacyjnych, okazało się, że wystarczyło kilka minut solidnej perswazji, by model sam obszdł nałożone na siebie ograniczenia i zdradził rzeczy, których nigdy nie powinien był nikomu przekazać. Pracownikom startupu Aim Intelligence testującego bezpieczeństwo modeli AI udało się dokonać skutecznego jailbreaka na Gemini Pro 3 i ominąć zabezpieczenia nałożone przez Google. Jeden z przedstawicieli Aim powiedział:
Najnowsze modele nie tylko dobrze reagują, ale także potrafią aktywnie unikać odpowiedzi, np. stosując strategie omijania i ukrywania informacji, co utrudnia udzielenie odpowiedzi. Jest to problem wspólny dla wszystkich modeli. Ważne będzie kompleksowe zrozumienie słabych punktów każdego modelu i dostosowanie ich do zasad świadczenia usług
Chodzi o to, że coraz bardziej rozwinięte modele AI potrafią unikać udzielania odpowiedzi niezgodnych z polityką i zasadami stosując różnego rodzaju strategie omijania (bypass strategies), ale problem w tym, że LLM’y mogą równie dobrze stać się zbyt ostrożne. Kontrolowanie ich zachowania nie jest łatwe, a oddanie sztucznej inteligencji pełnej odpowiedzialności za zarządzanie ryzykiem też, jak widać nie jest dobrym pomysłem. Badaczom Aim Intelligence udało się bowiem wykorzystać luki zabezpieczeniach Gemini Pro 3 i obejść wytyczne dotyczące etyki.
Koreańczycy uzyskali od modelu Google’a szczegółowe informacje o tym jak stworzyć broń biologiczną zawierającą wirusa czarnej ospy. To oczywiście nie koniec, bo w kolejnym kroku poproszono LLM o stworzenie prezenacji o satyrycznym charakterze na temat ujawnionej właśnie awarii zabezpieczeń, Gemini wygnerowało slajdy okraszając je tytułem Excused Stupid Gemini 3, co można przetłumaczyć jako Usprawiedliwiony głupiec Gemini 3. Test zakończono stworzeniem przez Gemini 3 Pro rozbudowanej strony internetowej zawierającej infromacje na temat produkcji sarinu oraz sposobach na wytworzenie materiałów wybuchowych w domowych warunkach.
Branża zdaje sobie sprawę z zagrożenia, a jako przyczynę podaje się zbyt szybko rosnącą wydajność i prędkość działania modeli, za czym nie nadążają systemy dbające o bezpieczeństwo. Google Gemini Pro 3 pod względem wskaźnikowym jest potężniejszy od ChatGPT 5, ale jak ujawniono, charakteryzuje się niskim poziomem zabezpieczeń, które da się złamać w kilka minut. Wydaje się, że świetle tych wydarzeń, w głowach włodarzy firm AI powinna nie tyle zapalić się czerwona lampka, ale zawyć syrena portowa. Pytanie tylko, czy ktokolwiek w Dolinie Krzemowej ją słyszy.

