2.12.2025 10:02

Google Gemini Pro 3 złamane w kilka minut. Asystent podyktował badaczom przepis na bojowy środek trujący

Modele generatywnej sztucznej inteligencji nieraz pokazały, że nie grzeszą… inteligencją i dając się podjeść w dziecinny sposób. Ostatnia wpadka Google Gemini 3 daje w tym temacie sporo do myślenia.

Google Gemini

Gdy tylko na rynku pojawiły się modele takie jak ChatGPT czy Copilot, użytkownicy na wszelkie sposoby próbowali zmusić tych asystentów do robienia złych rzeczy. Swego czasu głośno było o tym, że ten czy inny, odpowiednio zmanipulowany LLM generuje działające klucze systemu Windows. Nie brakowało też historii, w których podstępni klienci usługi Open AI dopytywali, jak zatrzeć ślady po popełnionym przestępstwie. W początkowej fazie, modele AI można było oszukać w niezwykle banalny sposób argumentując, że przepis na skonstruowanie bomby miała nam przekazać babka na łożu śmierci i zależy nam na zachowaniu tego wspomnienia, lub że nie chodzi wcale o ukrycie zwłok człowieka, ale kilkudziesięciokilogramowego kurczaka. Dostawcy modeli AI obiecali wprowadzić odpowiednie zabezpieczenia, ale póki co ich skuteczność wydaje się wątpliwa.

Potężny Google Gemini Pro 3 dał się podejść w kilka minut

Południowokoreańscy badacze zajmujący się zawodowo (w dobrej wierze) łamaniem etycznych zabezpieczeń LLM’ów poddali w ostatnim czasie próbie najnowszy LLM Google’a Gemini Pro 3. Niestety, jak donosi jeden z największych koreańskich portali informacyjnych, okazało się, że wystarczyło kilka minut solidnej perswazji, by model sam obszdł nałożone na siebie ograniczenia i zdradził rzeczy, których nigdy nie powinien był nikomu przekazać. Pracownikom startupu Aim Intelligence testującego bezpieczeństwo modeli AI udało się dokonać skutecznego jailbreaka na Gemini Pro 3 i ominąć zabezpieczenia nałożone przez Google. Jeden z przedstawicieli Aim powiedział:

Najnowsze modele nie tylko dobrze reagują, ale także potrafią aktywnie unikać odpowiedzi, np. stosując strategie omijania i ukrywania informacji, co utrudnia udzielenie odpowiedzi. Jest to problem wspólny dla wszystkich modeli. Ważne będzie kompleksowe zrozumienie słabych punktów każdego modelu i dostosowanie ich do zasad świadczenia usług

Chodzi o to, że coraz bardziej rozwinięte modele AI potrafią unikać udzielania odpowiedzi niezgodnych z polityką i zasadami stosując różnego rodzaju strategie omijania (bypass strategies), ale problem w tym, że LLM’y mogą równie dobrze stać się zbyt ostrożne. Kontrolowanie ich zachowania nie jest łatwe, a oddanie sztucznej inteligencji pełnej odpowiedzialności za zarządzanie ryzykiem też, jak widać nie jest dobrym pomysłem. Badaczom Aim Intelligence udało się bowiem wykorzystać luki zabezpieczeniach Gemini Pro 3 i obejść wytyczne dotyczące etyki.


Orion to nowa przeglądarka na macOS i iOS. Na szczęście bez AI

Orion to nowa przeglądarka na macOS i iOS. Na szczęście bez AI

Na macOS i iOS debiutje kolejna przeglądarka internetowa i dla odmiany ma być ona pewną formą odtruki na wyskakujące zewsząd AI. Oto Orion Browser. Gdyby kilkanaście miesięcy temu ktoś mi…

Koreańczycy uzyskali od modelu Google’a szczegółowe informacje o tym jak stworzyć broń biologiczną zawierającą wirusa czarnej ospy. To oczywiście nie koniec, bo w kolejnym kroku poproszono LLM o stworzenie prezenacji o satyrycznym charakterze na temat ujawnionej właśnie awarii zabezpieczeń, Gemini wygnerowało slajdy okraszając je tytułem Excused Stupid Gemini 3, co można przetłumaczyć jako Usprawiedliwiony głupiec Gemini 3. Test zakończono stworzeniem przez Gemini 3 Pro rozbudowanej strony internetowej zawierającej infromacje na temat produkcji sarinu oraz sposobach na wytworzenie materiałów wybuchowych w domowych warunkach.


Tim Sweeney z Epic Games i jego krytyczne wypowiedzi o tagach „Made with AI”, czyli trochę o przyszłości tworzenia gier w epoce AI

Tim Sweeney z Epic Games i jego krytyczne wypowiedzi o tagach „Made with AI”, czyli trochę o przyszłości tworzenia gier w epoce AI

Generatywna sztuczna inteligencja stała się na swój sposób wszechobecna. Reklamy, media społecznościowe, (czasem) filmy, gry – technologie genAI coraz częściej są stosowane w produkcji takich treści. Zdaniem prezesa Epic Games, w tym…

Branża zdaje sobie sprawę z zagrożenia, a jako przyczynę podaje się zbyt szybko rosnącą wydajność i prędkość działania modeli, za czym nie nadążają systemy dbające o bezpieczeństwo. Google Gemini Pro 3 pod względem wskaźnikowym jest potężniejszy od ChatGPT 5, ale jak ujawniono, charakteryzuje się niskim poziomem zabezpieczeń, które da się złamać w kilka minut. Wydaje się, że świetle tych wydarzeń, w głowach włodarzy firm AI powinna nie tyle zapalić się czerwona lampka, ale zawyć syrena portowa. Pytanie tylko, czy ktokolwiek w Dolinie Krzemowej ją słyszy.