Generatory grafiki AI mają złą reputację za tworzenie niedokładnych przedstawień dłoni. Porównajmy Midjourney v5 z Dall-E 2, aby zobaczyć, który radzi sobie lepiej.

Generatory grafiki AI nadal imponują, pozwalając nam tworzyć niemal wszystko, co możemy sobie wyobrazić. Wydaje się jednak, że technologia ta uderzyła w ścianę z cegły, jeśli chodzi o generowanie realistycznie wyglądających rąk.

Tutaj przyjrzymy się dwóm wiodącym aplikacjom do grafiki generatywnej i zmierzymy się z nimi – lub ręka w rękę – aby zobaczyć, która może generować lepsze rozdania, Midjourney v5 czy Dall-E 2. Czy któraś z tych aplikacji opanowała ręce? Dowiedzmy Się!

Problem AI z rękami

Odkąd sztuka generowana przez sztuczną inteligencję stała się powszechna w Internecie, pojawiła się krytyka dotycząca jakość rąk narysowanych przez AI. Pomimo ostatnich aktualizacji, jak pokazano w naszych bezpośrednich porównaniach, wyniki nie są zadowalające.

Obaj rywale poprawiali swoje możliwości i jakość swoich wyników z każdą iteracją. Najnowsza aktualizacja,

instagram viewer
Wersja 5 Midjourneywykazał imponujący postęp. Jednak problem z rękami wyciągniętymi przez AI pozostaje nierozwiązany i nie można go zignorować.

Porównanie 1: Korzystanie z podpowiedzi „Ręka” i „Ręce”

Nasze porównania będą zawierać dokładnie te same podpowiedzi zarówno dla Dall-E 2, jak i Midjourney v5. Zaprojektujemy monity tak, aby były specyficzne dla dłoni, zamiast po prostu tworzyć ludzi, aby zobaczyć, jak wyglądają ręce. Każdej aplikacji dajemy też tylko jedną szansę (rzut) na każdy monit.

Ręka

Zacznijmy od najbardziej podstawowego i odpowiedniego podpowiedzi: „ręka”.

Podróż w połowie v5:

Dall-E 2:

Nie mamy dobrego początku!

Midjourney wybrał niezwykłą drogę, łącząc rozdanie z raczej kreatywnymi sytuacjami. Zamiast skupiać się tylko na dłoni, widzimy czarodzieja, rękawiczki, szkielet i maleńką figurkę. Na zdjęciu w rękawiczkach brakuje również palca.

Dall-E 2 przyjmuje odwrotne podejście i oferuje nam tylko jedną rękę na jednolitym tle. Ale, co dziwne, istnieją pewne dziwne postawy, szczególnie z kciukami, które nie wyglądają naturalnie ani komfortowo. Każda ręka jest również odcięta po jednej stronie obrazów.

Kto wygrywa tę rundę? Przekażemy to Dall-E 2 dla ogólnej dokładności.

Ręce

Teraz zróbmy liczbę mnogą, „ręce” i zobaczmy, co wymyśli sztuczna inteligencja.

Podróż w połowie v5:

Dall-E 2:

Próba Midjourney na „ręce” tym razem okazuje się lepsza. Ale wszystkie cztery obrazy są czarno-białe i brakuje nam kilku palców. Po bliższym przyjrzeniu się można również zauważyć, że niektóre cyfry mają dziwny kształt lub przechodzą jedna w drugą.

Dall-E 2 nadal zawiera ręce z prostym tłem. Nie ma brakujących cyfr, ale ręce są przycięte na trzecim obrazie, a inne wersje wydają się trochę niezdarne w kompozycji i całkowicie pozbawione kreatywności.

Nazwijmy to porównanie remisem. Dall-E 2 wygrałby pod względem dokładności, gdyby był to jedyny czynnik, ale Midjourney udaje się go stworzyć piękne obrazy w swoich czarno-białych wersjach, nawet jeśli wszystkie cztery wersje nie są bardzo realistyczny.

Możesz zawsze użyj Photoshopa, aby naprawić swoją grafikę Midjouney, w tym ręce.

Porównanie 2: Gesty dłoni

Porównajmy kilka gestów dłoni, które są niemal powszechnie rozpoznawane.

Skrzyżowane palce

Najpierw spróbujmy „trzymać kciuki”.

Podróż w połowie v5:

Dall-E 2:

Można śmiało powiedzieć, że Midjourney całkowicie spartaczył ten monit. Brakuje nam palców i żadna z wersji nie wygląda naturalnie.

Czapki z głów jeszcze raz dla Dall-E 2 za poprawne policzenie palców, ale to jedyna dobra wiadomość. Każda wersja wygląda tak, jakby palce uderzały we własne pozy jogi w grze Twister.

W tym porównaniu nie ma zwycięzcy.

Kciuki w górę

Dalej idziemy z „kciukami w górę”.

Podróż w połowie v5:

Dall-E 2:

Midjourney poprawnie liczy palce, jednocześnie traktując każdą podpowiedź w kreatywny sposób. Czy zauważyłeś wprowadzenie stylu ilustracyjnego?

Dall-E 2 otrzymuje również punkty za celność, nie próbując rozbujać łodzi, dodając coś kreatywnego do każdego wyniku.

Nie ma tu wyraźnego zwycięzcy.

Porównanie 3: Ręce z przedmiotami

Teraz zwiększymy złożoność, zachęcając ręce do interakcji z przedmiotami.

Ręka Trzyma Kryształową Kulę

Zacznijmy od losowego obiektu, używając podpowiedzi „ręka trzymająca kryształową kulę”.

Podróż w połowie v5:

Dall-E 2:

Gdy zwiększamy złożoność, Midjourney zaczyna błyszczeć. Oprócz kilku nienaturalnych wykonań, wskazówki i kryształowe kule wyglądają pięknie. Midjourney zajmuje nawet trochę czasu, aby stworzyć odbicia w szkle, które z pewnością zwiększają ogólną kreatywność.

Ale po raz pierwszy widzimy, że Dall-E 2 nie ma cyfry w co najmniej jednej ręce, a czwarta ręka wygląda po prostu dziwnie. Kryształowe kule również nie wyglądają tak imponująco w porównaniu z Kulami Midjourney.

Midjourney odnosi swoje pierwsze zwycięstwo.

Ręka Trzyma Wodę

Spróbujmy czegoś jeszcze bardziej złożonego z podpowiedzią „woda trzymająca rękę”.

Podróż w połowie v5:

Dall-E 2:

Midjourney udaje się rzucić tylko jeden obraz z prawidłową liczbą cyfr. Choć pięknie renderowane, po raz kolejny zaczynamy dostrzegać pęknięcia w dziale wiarygodności.

Dall-E 2 również ma problemy z uzyskaniem naturalnych dłoni, ale radzi sobie znacznie lepiej. Zmienia również kolor tła, aby uzyskać pewną różnorodność.

Oddamy tę rundę Dall-E 2.

Porównanie 4: Ręce robocze

Na potrzeby tego porównania utworzymy monity, w których ręce są zaangażowane w czynności.

Ręce Formowanie Gliny

Zobaczmy, jak radzą sobie modele AI z „rękoma formującymi glinę”.

Podróż w połowie v5:

Dall-E 2:

Midjourney przegapił palec na dwóch obrazach, ale wszystko inne wygląda świetnie.

Obrazy Dall-E 2 wyglądają na zagmatwane i zatłoczone, uciekając się do dodania rąk innej osoby w połowie wersji.

Krawędź idzie do Midjourney.

Ręce Naciskając Ciasto

Spróbujmy wykonać podobną czynność, „ręce wyciskają ciasto”.

Podróż w połowie v5:

Dall-E 2:

Obrazy Midjourney ogólnie wyglądają świetnie. Ale znowu połowa z nich ma brakujące cyfry. Ale obrazom nie można nic zarzucić artystycznej stylizacji.

Wersje Dall-E 2 również nie mają palców w połowie wersji, a nawet dodają jeden do ostatniej ręki w zestawie.

Nazwijmy to remisem.

Jeśli chcesz sam wypróbować te porównania, pokażemy Ci jak używać Midjourney do tworzenia grafiki AI.

Co mówią nam wyniki?

Fajnie jest robić porównania i określać ogólnego zwycięzcę. A gdybyśmy mieli wybierać, wybralibyśmy Midjourney v5. Chociaż Dall-E 2 częściej tworzył ręce z odpowiednią liczbą palców, to Midjourney stworzył bardziej artystycznie renderowane i atrakcyjne obrazy.

Ale obie aplikacje mają miejsce na rynku dla artystów, którzy wykorzystują obrazy Dall-E 2 i Midjourney do swoich prac. Oba są w stanie tworzyć ręce, które mogą być używane jako wycinanki lub w kompozytach do użytku artystycznego, redakcyjnego i komercyjnego. To tylko kwestia osobistych preferencji.

Sztuczna inteligencja ostatecznie podbije ręce

Aplikacje do grafiki generatywnej, takie jak Dall-E 2 i Midjourney, przeszły długą drogę w zakresie tworzenia realistycznych i fantastycznych dzieł sztuki. Wciąż mają problemy z generowaniem rąk, ale biorąc pod uwagę przyspieszenie technologii generatywnej, możemy spodziewać się poprawy tylko w najbliższej przyszłości.