Midjourney pół roku później

Pół roku temu, od zaprezentowania Midjourney, rozpocząłem moją krótką serię pt. Sztuka & AI. Przygoda z tym narzędziem trwała krótko, bo okazało się, że nałożony jest limit, po wykorzystaniu którego trzeba zapłacić za subskrypcję. W tej sytuacji przerzuciłem się na inną aplikację o nazwie Wonder, ale wbrew nazwie nie była ona jakoś specjalnie wonderful. Po tygodniu testowania doszedłem do wniosku, że ta cała sztuczna inteligencja jest mocno przereklamowana. Owszem, coś tam potrafi wygenerować, ale jest wiele "ale".

Tymczasem minęło pół roku. W między czasie obserwowałem efekty współpracy z AI różnych moich znajomych. Nie ukrywam, że prace te mocno mnie intrygowały. Wszystkie były tworzone w Midjourney i wyglądały bardzo profesjonalnie. I tak, z jednej strony miałem w pamięci efekty moich prób z listopada 2022, z drugiej jednak byłem świadomy, że technologia się rozwija, a przyspieszenie jest takie, że pół roku to teraz jak kilka lat. Postanowiłem więc wydać te 12$ i sprawdzić jak działa najnowsza wersja Midjourney. Zwłaszcza, że miałem temat do ogarnięcia, a mianowicie grafiki promujące "Tarnów City Wrecker". Po wpisaniu "Krakowska Street in Tarnów, abandoned and destroyed, --ar 16:9" otrzymałem cztery propozycje:

No cóż, grafiki fajne. Przedstawiają opuszczone miasto. Problem w tym, że ewidentnie nie jest to Tarnów. A już na pewno nie Krakowska. Kto był, ten wie.

Oczywiście moja komenda była bardzo prosta, bez dodatkowych poleceń (a trzeba wiedzieć, że 50% efektu jaki otrzymamy od Midjourney zależy od naszego opisu). W tym przypadku jednak nie miało to większego znaczenia. AI w tej wersji nie potrafi oddawać miejsc. Nawet ikoniczne budowle takie jak Wieża Eiffla będzie sytuować w przestrzeni wykreowanej.

Co prawda Midjourney daje możliwość wgrania zdjęć i stworzenia grafik na ich podstawie. Niestety zadowalające efekty daje to tylko w przypadku ludzi. Tu faktycznie często udaje się odwzorować podobieństwo. Budowli jednak to nie dotyczy. W tej sytuacji wgranie kilku fotografii tarnowskiego ratusza dało efekt zupełnie do niego nie podobny.

Tak samo było w przypadku Domu Mikołajowskiego znajdującego się w moim ulubionym zaułku, tuż za Katedrą. Coś tam dzwoni, ale to zdecydowanie nie ten kościół, co trzeba...

Co ciekawe w przypadku grafik tworzonych na podstawie zdjęć nie można stosować dodatkowych komend. Np. takich jak ta z pierwszego przykładu: --ar 16:9. Oznacza ona, że wygenerowany obraz będzie miał proporcje 16:9. Domyślnie zawsze jest kwadrat. I tak też zawsze będzie gdy robimy coś na podstawie innego pliku graficznego.

No dobrze, to wiemy już, że w Midjourney nie odwzorujemy konkretnego miasta. Spokojnie jednak stworzymy w nim Tarnów w roku 2523. Wszystko jesteśmy w stanie opisać i doprecyzować komendami. Choć trzeba być świadomym tego, że nie wszystkie nasze zachcianki AI spełni. Praktyka pokazuje, że nie każdy element znajdujący się w opisie jest zrealizowany. Większość jednak tak.

Całkiem sprawnie Midjourney radzi sobie z abstrakcyjnymi obrazkami. I nie mam tu na myśli abstrakcji malarskich tylko raczej ilustracje do jakiś technologicznych tematów takich jak choćby blockchain. Zawsze mi tego brakowało, postanowiłem więc wykorzystać to narzędzie do stworzenia ilustracji do moich artykułów na Hive.

Powyższe grafiki to tylko mała próbka. Narzędzie daje ogromne możliwości. Tak jak już wspominałem, połowa sukcesu to odpowiednie komendy, a potem dopracowywanie szczegółów poprzez generowanie kolejnych (lekko zmodyfikowanych) wersji. Nieczęsto zdarza się, aby pierwsza wygenerowana grafika spełniała nasze oczekiwania. Zwykle AI kompletnie nie jest w stanie pojąć (o ile można mówić tu o pojmowaniu), o co nam chodzi. Poniżej kilka przykładów. Na początek "Ukrainian tractor pulling Russian tank, comics style, --ar 16:9".

No nie powiem, żeby o to mi chodziło... Podobnie było w przypadku "antisoviet partisan portrait, comics style, --ar 16:9".

Wszystko spoko, gdyby nie fakt, że zamiast antykomunistycznego partyzanta otrzymałem czerwonego jak cegła Sowieta. Podejrzewam jednak, że zamierzony efekt mógłbym osiągnąć odpowiednio modyfikując moją prośbę i lepiej opisując to, co chciałbym otrzymać. Pomijam już kwestię, że Midjourney cały czas się rozwija i daje coraz większe możliwości. Nie wiem czy pamiętacie mojego "przemytnika kakao", którego wygenerowała mi AI pół roku temu. Oto on:

Dziś dodałem trochę więcej szczegółów (moustached cocoa smuggler in woollen turtleneck and leather jacket, in background communist town of 1990's, lens 35mm, --ar 16:9) i wygląda on zdecydowania lepiej.

No ale i tu widać, że nie do końca trzyma się on opisu. Nie zawsze jest golf, nie zawsze jest skórzana kurtka. Podejrzewam jednak, że da się to ulepszać tworząc kolejne wersje poszczególnych wariantów.

Tymczasem na koniec grafika, która zrobiła na mnie największe wrażenie. Komenda brzmiała: "portrait of Witold Pilecki on the street in Poland in 60-ties, lens 35mm --ar 16:9".

Dla porównania, tak wyglądał Pilecki podczas procesu w 1948 roku:

Nie ukrywam, że zaskoczyło mnie to podobieństwo. W dodatku został odpowiednio postarzony. No tylko to tło jakoś niezbyt przypomina Polskę lat 60-tych. Raczej Anglię. Cóż, może AI założyła, że gdyby przeżył to najpewniej wyjechałby na Zachód.

Reasumując, przez ostatnie pół roku Midjourney zrobiło ogromny postęp. Sam wciąż się go uczę i z pewnością opanowanie tego narzędzia zajmie sporo czasu. Nie jest to proste (vide: nieudane próby wygenerowania traktorów i partyzantów), więc całkiem zasadne są przewidywania dotyczące powstania w przyszłości nowego zawodu polegającego na wydawaniu komend sztucznej inteligencji. Z drugiej strony dobry grafik wciąż potrafi zdecydowanie więcej niż AI. Nie jest ograniczony schematami, więc może wcielać w życie nawet najbardziej abstrakcyjne wizje. Midjourney tego nie potrafi. Lub raczej: nie potrafi tego w większości przypadków. Czasem zaskakuje (np. Pileckim) większość wygenerowanych grafik jest jednak daleka od oczekiwań. Choć biorąc pod uwagę tempo rozwoju zamiast słowa "jednak" powinienem użyć słowa "jeszcze". Wydaje mi się, że to tylko kwestia czasu.