technologia
Imager AI Midjourney v5 zadziwia fotorealistycznymi obrazami – i 5-palcowymi dłońmi – Ars Technica
W środę środek transportu ogłoszony Wersja 5 komercyjnej usługi syntezy obrazów AI zdolnej do generowania fotorealistycznych obrazów na poziomie jakości wymaganym przez niektórych fanów sztuki AI straszny I „zbyt doskonały.” Midjourney v5 jest teraz dostępny jako test alfa dla klientów, którzy subskrybują usługę Midjourney, dostępną za pośrednictwem Discord.
„MJ v5 w tej chwili wydaje mi się, że w końcu dostaję okulary po ignorowaniu słabego wzroku przez trochę zbyt długo”, powiedziała Julie Wieland, grafik, który często udostępnia ich kreacje w połowie podróży na Twitterze. „Nagle widzisz wszystko w 4K, wydaje się to dziwnie przytłaczające, ale także niesamowite”.
Wieland podzielił się niektórymi generacjami Midjourney v5 z Ars Technica (widoczne w galerii poniżej i na głównym obrazie powyżej) i z pewnością pokazują ewolucję szczegółów obrazu od czasu pierwszej premiery Midjourney w marcu 2022 r. Wersja 3 zadebiutowała w sierpniu, a wersja 4 zadebiutowała w listopadzie. Każda iteracja dodawała więcej szczegółów do generowanych wyników, jak pokazują nasze eksperymenty:
Ars Technica
Midjourney działa podobnie do syntezatorów obrazu, takich jak Stable Diffusion i DALL-E, generując obrazy na podstawie opisów tekstowych zwanych „podpowiedziami” przy użyciu modelu sztucznej inteligencji przeszkolonego na milionach ludzkich dzieł sztuki. Niedawno Midjourney znalazł się w centrum kontrowersji związanych z prawami autorskimi w związku z komiksem, który wykorzystywał poprzednie wersje usługi.
-
Wygenerowane przez sztuczną inteligencję „syntetyczne zdjęcie” dziewczyny przez okno utworzone za pomocą Midjourney v5 autorstwa Julie Wieland.
Julia Wieland
-
Wygenerowane przez sztuczną inteligencję „syntetyczne zdjęcie” cheeseburgera utworzone za pomocą Midjourney v5 przez Julie Wieland.
Julia Wieland
-
Sztuczna inteligencja wygenerowała „syntetyczne zdjęcie” chłopca i kwiatów stworzone za pomocą Midjourney v5 autorstwa Julie Wieland.
Julia Wieland
-
Wygenerowane przez sztuczną inteligencję „syntetyczne zdjęcie” klauna stworzone za pomocą Midjourney v5 przez Julie Wieland.
Julia Wieland
-
Sztuczna inteligencja wygenerowała „syntetyczne zdjęcie” dziewczyny stworzonej za pomocą Midjourney v5 przez Julie Wieland.
Julia Wieland
-
Ulepszona wersja wyjścia Midjourney v5, wywołująca „muskularnego barbarzyńcę z bronią obok telewizora CRT, kinowego, 8K, studyjnego oświetlenia”.
Po eksperymentowaniu z wersją 5 przez jeden dzień, Wieland zauważył ulepszenia, w tym „niesamowicie realistyczne” tekstury skóry i rysy twarzy; bardziej realistyczne lub kinowe oświetlenie; lepsze odbicia, odblaski i cienie; bardziej wyraziste kąty lub przeglądy sceny i „oczy, które są prawie idealne i już się nie trzęsą”.
I oczywiście ręce.
Tylko uwaga – sztuczna inteligencja Midjourney może teraz układać ręce prawidłowo. Bądź szczególnie krytyczny wobec obrazów politycznych (zwłaszcza fotografii), które widzisz w Internecie i które próbują sprowokować reakcję. pic.twitter.com/ebEagrQAQq
— Del Walker (@TheCartelDel) 16 marca 2023 r
W zeszłym roku pomysł, że generatory grafiki AI nie mogą poprawnie renderować rąk, stał się swego rodzaju trop kulturowy. Co ciekawe, Midjourney v5 potrafi dość dobrze generować realistyczne ludzkie dłonie. „Ręce są w większości poprawne, z 5 palcami zamiast 7-10 na jednej ręce” – powiedział Wieland.
W informacjach o wydaniu usługi Discord Midjourney zauważył również, że wersja 5 odpowiada teraz „znacznie większym zakresem stylistycznym” niż wersja 4, a jednocześnie jest bardziej wrażliwa na monity, generuje mniej niechcianego tekstu i oferuje 2-krotny wzrost rozdzielczości obrazu.
Jeśli ulepszenie w połowie podróży ma wizualny minus dla fanów grafiki AI, być może wynika to z obrazów, które mogą być tak realistyczne i „doskonałe”, że precyzja modelu odbiera część dreszczyku emocji związanego z wielokrotnym generowaniem obrazów AI w celu stworzenia znaleźć odpowiedni wynik, co można nazwać „efektem automatu”. Chociaż użytkownik Twittera nazywał się Philipp Lenssen zapisane„Jeśli masz na myśli konkretny motyw wizualny, nadal jest to trochę jak loteria. Ale z większymi szansami na wygraną niż v4.”
„Certyfikowany guru kulinarny. Internetowy maniak. Miłośnik bekonu. Miłośnik telewizji. Zapalony pisarz. Gracz.”