Midjourney rok później

Dokładnie rok temu, w połowie listopada 2022, po raz pierwszy wypróbowałem Midjourney, czyli jeden z czołowych generatorów grafik opartych o AI. Kolejny raz sięgnąłem po to narzędzie pół roku później i zanotowałem ogromny skok. Czy od lata 2023 coś się zmieniło? Pora to sprawdzić.

Niestety "wiedza ogólna" AI nie posunęła się zbytnio do przodu. Po wpisaniu prompta: "Riga celebrating Latvian Day of Independence, digital painting, --ar 16:9" otrzymałem miasto zaledwie luźno nawiązujące do Rygi.

Midjourney wciąż jest wyjątkowo głupie i nie wie jak wygląda łotewska flaga. Z innymi (bardziej popularnymi) też będzie miało problem i zwykle będzie proponowało "swoją wersję". To co jednak rzuca się w oczy to więcej opcji modyfikowania wygenerowanych obrazów.

Oto przykład - załóżmy, że spodobała mi się powyższa grafika. Obecna wersja Midjourney daje mi możliwość zarówno oddalenia widoku, jak i modyfikacji konkretnego fragmentu.

I tak na przykład po "oddaleniu" otrzymałem cztery powyższe propozycje. Poniżej natomiast różne wersje wieży. Jak widać zmieniła się tylko ona. Reszta miasta pozostała bez zmian.

Nie ukrywam, że obie funkcje są bardzo przydatne i redukują ilość prób. Niestety z głupotą Midjourney wciąż jest ich dość sporo. AI niby słyszy, że dzwonią, ale nie wie, w którym kościele. Szczegółowe opisanie nic nie daje. Czasem nawet może pogorszyć sytuację.

Powyżej próba wygenerowania łotewskiej flagi. Jako, że wpisanie "Latvian flag" daje opłakane efekty postanowiłem skopiować z Wiki opis łotewskiej flagi. Prompt był następujący: "Flag, a carmine red field bisected by a narrow white stripe (one-fifth the width of the flag), --ar 16:9". Nieco ciekawsze rezultaty otrzymałem po wklejeniu obrazka z łotewską flagą. Prompt był następujący: "forest landscape with Latvian flag, oil painting, --ar 16:9".

Jak już jesteśmy przy Łotwie to postanowiłem sprawdzić jak po tych kilku miesiącach Midjourney poradzi sobie ze zdjęciem Łotyszki z okładki mojej płyty. Pół roku temu radziło sobie kiepsko.

No i cóż. Nie widzę dużego progresu. O ile w ogóle jakiś. Niemniej jakiś czas temu trafiłem na dodatkowe narzędzie pod nazwą InsightFaceSwap, które pozwala "doklejać" twarze ze zdjęć do wybranych grafik wygenerowanych przez Midjourney. Poniżej przykład. Prompt: "young woman in headphones, 19 century, abstraction oil painting, --ar 16:9".

Owszem, trochę bardziej podobna, ale wciąż czegoś brakuje. Postanowiłem więc wygenerować obrazek, który pokazywałby lewy półprofil. Niestety pochłonęło to sporo czasu i prób, bo Midjourney nie wie co to jest "lewy półprofil". Ostatecznie jednak udało mi się uzyskać satysfakcjonujący obraz.

Postanowiłem go trochę oddalić.

A następnie dodałem twarz Łotyszki...

Jak na moje oko nie wygląda to w 100% naturalnie. Równie dobrze mógłbym wziąć Photoshopa i przekleić twarz ze zdjęcia a potem ją pokolorować. Efekt byłby podobny...

Spróbowałem też z inną fotografią. Pamiętam, że przy lipcowej próbie "ożywienia" Łotyszy miałem z nią największy problem.

Cóż, podobieństwo jest, ale bez szału. Ale może to przez ten "oil painting"? Może z fotografią będzie lepszy efekt? Postanowiłem to sprawdzić. Oto co otrzymałem...

Prompt był następujący: "woman's portrait, shot on Yashica T4 35mm with fujifilm superia x-tra 400 --ar 16:9". Wybrałem jedynkę i trójkę.

Moim zdaniem efekt jest jeszcze gorszy niż na obrazach olejnych. Oczywiście nie wykluczam, że po 300 próbach otrzymałbym twarz niemal identyczną do tej z fotografii. Kto wie... Wciąż jednak jest to orka na ugorze i trzeba na prawdę wiele obrazów wygenerować, aby otrzymać coś, co faktycznie chcę otrzymać. Progres jest, ale wciąż za mały by uznać Midjourney za "inteligentne".