Ile dni branża technologiczna może wytrzymać bez kolejnej wiadomości na temat jakieś implementacji sztucznej inteligencji? Ani jednego. A ile różnych produktów powiązanych z AI ma w swoim portfolio Google? Na pewno jeszcze jeden!
Niedawno Gustaw poinformował Was, że Google ma w planach pewną unifikację produktów opartych na sztucznej inteligencji, przynajmniej w warstwie nazewnictwa. W ostatnim czasie pojawiało się ich naprawdę sporo i mam wrażenie, że nawet dziennikarze technologiczni zaczęli się w tym gubić. Ja do tej grupy z pewnością należę.
A zatem, aby ten temat jeszcze bardziej skomplikować, Google uruchomiło właśnie kolejne narzędzie AI służące do generowania obrazów. ImageFX jest (na razie) samodzielnym projektem niepowiązanym z Bardem, aczkolwiek bazuje on na tym samym silniku — Imagen 2, czyli zaawansowanym modelu konwertującym tekst na obraz.
ImageFX to narzędzie zaprojektowane dla artystów
Starcie gigantów technologicznych na polu generatywnej sztucznej inteligencji trwa i nic nie wskazuje na to, aby miało się rychło zakończyć. Na fali popularności i rosnących oczekiwań wyceny firm jak np. Alphabet (spółka matka Google) pną się w górę. Na dowód czego wspomnę, że w ostatnich tygodniach Microsoft wyprzedził Apple po względem wartości giełdowej i jest już wyceniany na 3 biliony dolarów. Zarówno inwestorzy, jak i akcjonariusze mają ogromne nadzieje na to, że popularne modele, takie jak Bard, Gemini czy ChatGPT, okażą się przełomem na miarę upowszechnienia się Internetu. Zwycięstwa w tym wyścigu nie chce odpuścić żadna z dużych korporacji.
🔥Breaking News from Arena
Google's Bard has just made a stunning leap, surpassing GPT-4 to the SECOND SPOT on the leaderboard! Big congrats to @Google for the remarkable achievement!
The race is heating up like never before! Super excited to see what's next for Bard + Gemini… pic.twitter.com/QPtsqZdJhC
— lmsys.org (@lmsysorg) January 26, 2024
Skoro więc Google oferuje dwa narzędzia służące do tego samego, które są dodatkowo oparte na tej samej technologii (Imagen 2), to czym różnią się od siebie te rozwiązania? Postanowiłem to sprawdzić.
Bard wydaje się być łatwą w użyciu aplikacją. Przeznaczoną na rynek masowy i dostępną dla każdego, kto ma ochotę użyć prostego polecenia i chce szybko wygenerować grafikę potrzebną do zilustrowania swojego pomysłu. Warto zaznaczyć, że Bard tworzący obrazy jest tym samym narzędziem, z którego możemy skorzystać podczas standardowej konwersacji. Do wygenerowania grafiki wystarczy „draw a…”. Jak zaznacza Google, Bard jest darmowy dla każdego pełnoletniego użytkownika konta.
ImageFX z drugiej strony jest platformą, póki co, ograniczoną geograficznie (USA, Kenia, Nowa Zelandia i Australia), a prompt musi być wpisany po angielsku. Narzędzie to charakteryzuje się znacznie przyjemniejszą oprawą graficzną i jest wyraźnie skierowane do artystów, którzy lubią trochę więcej pokombinować i chcą, aby ich wizja została oddana w jak najbardziej precyzyjny sposób. ImageFX posiada minimalistyczny, ale użyteczny layout i wyróżnia się jedną z opcji, której Bard nie posiada. Pozwala mianowicie na szybsze modyfikowanie promptu – po przeanalizowaniu przez AI jest nieco przekształcany i wzbogacany o rozwijane listy na słowach kluczowych, dając możliwość zmiany konkretnej cechy.
Na pierwszy ogień poszedł prompt o następującej treści: A tech journalist writing an article about newest AI image creating tool. He’s an editor in Dailyweb.pl. Jak widzicie na poniższym zrzucie ekranu, wybrane słowa zostały wyraźnie zaznaczone i akurat w tym wypadku słowo article mogłem zamienić na poem lub book.
Skąd jeż? Nie mam pojęcia, ale zwróćcie uwagę na sylwetkę w lewym górnym rogu. Identycznego promptu użyłem w Google Bard, wpisując draw me a tech journalist writing an article about newest AI image creating tool. He’s an editor in Dailyweb.pl. To narzędzie, w przeciwieństwie do ImageFX, generuje dwie propozycje, ale jedną z nich był dość podobny mężczyzna.
W obu narzędziach spędziłem nieco więcej czasu i muszę powiedzieć, że grafiki generowane przez ImageFX przypadły mi bardziej do gustu od tworzonych przez Barda. Dzięki przekształcanym na bieżąco tekście dużo łatwiejsza jest także modyfikacja otrzymywanych wyników, a to jeszcze nie wszystko, ponieważ w dolnej części ramki na prompt pojawiają się jeszcze inne podpowiedzi, które pozwalają na kolejne zmiany.
Lumiere od Google to najlepsze narzędzie AI do generowania filmów? Przykłady robią wrażenie!
Z informacji opublikowanych przez Google dowiadujemy się również, że grafiki generowane przez Bard oraz przez ImageFX zawierają niewidoczny dla ludzkiego oka znak wodny, który ma pozwolić na jednoznaczną identyfikację takiego obrazu w sieci. Firma chwali się, że SynthID pozostaje na zdjęciach nawet wtedy, gdy zostaną one zmodyfikowane w programach graficznych. Dzięki temu, że takie takie rozwiązanie ma miejsce, użytkownicy mogą zyskać pewnego rodzaju ochronę przed fake newsami, bo zdjęcia dostępne w Internecie będzie można zweryfikować. Problem jednak w tym, iż jak na razie SynthID jest autorskim rozwiązaniem Google i nikt inny go nie implementuje, a jednym sposobem sprawdzenia grafiki jest wyszukanie jej w wyszukiwarce.
Świadomość sytuacji wykazuje samo Google, które tak komentuje dostępność narzędzia:
Chociaż SynthID nie jest łatwym i szybkim sposobem rozwiązania kwestii dezinformacji, jest wczesnym i obiecującym narzędziem technicznym palącego problemu bezpieczeństwa AI.
Na koniec postanowiłem jeszcze sprawdzić, jak ImageFX poradzi sobie z wygenerowaniem bardziej zlokalizowanej grafiki. Wpisałem następujące hasło: A typical cityscape of Polish modern big city. Na pierwszy rzut oka rezultaty prezentują dobrze jakościowo, ale w większym formacie… no cóż, wyglądają jak „zdjęcia” 3D z Google Maps sprzed co najmniej kilku lat.
Chcąc jeszcze raz porównać narzędzia, w taki sam sposób, poprosiłem o wygenerowanie obrazu Barda. Niestety, jak widać na poniższym zrzucie ekranu, odmówił:
Obserwowanie tej rozwijającej się branży jest bardzo ciekawe. Z przyjemnością wypróbowałem ImageFX, chociaż muszę przyznać, że ilość dostępnych narzędzi i chaos, jaki panuje w ekosystemie Google, przyprawia o zawrót głowy. Gdy porównywałem ze sobą obydwie aplikacje, przyszło mi do głowy jedno odniesienie, które moim zdaniem dobrze oddaje przeznaczenie tych produktów. Gdyby odnieść je do mediów społecznościowych, Bard byłby Facebookiem, który przyjmie i tekst, i obraz, ale zdjęcia byłyby tylko dodatkiem. ImageFX to Instagram, czyli liczy się przede wszystkim ładny obrazek.