Sztuczna inteligencja może nas oszukać, że mylimy wygenerowaną grafikę z prawdziwymi zdjęciami. Dlaczego więc dłonie są tak dużym wyzwaniem?
Generatory AI ewoluują na naszych oczach w zastraszającym tempie, ale wciąż mają wady. Dostrzeganie dziwnych szczegółów na obrazach AI jest całkiem zabawne. Dlatego ręce w trakcie podróży stały się gorącym tematem, problemem powszechnym w wielu silnikach.
Zastanówmy się, dlaczego ręce tak bardzo rzucają wyzwanie generatorom obrazów AI. Ich programiści już naprawiają ten problem warty memów, ale warto pomyśleć o tym, jak uczy się sztuczna inteligencja, nie wspominając już o tym, co staje jej na drodze.
Dlaczego ręce generowane przez sztuczną inteligencję wywołały poruszenie
Każdy, kto używa silników AI do tworzenia obrazów, mógł zauważyć, że ręce rzadko wychodzą dobrze, ale problem zwrócił uwagę, gdy na Twitterze pojawiło się kilka „zdjęć”.
Po bliższym przyjrzeniu się, dziwne ręce ludzi zdradzały je jako obrazy generowane przez sztuczną inteligencję. Fakt, że była to próba rąk Midjourney, czynił sytuację bardziej interesującą.
Jeden z najlepszych dostępnych silników sztucznej inteligencji nie był w stanie poradzić sobie ze złożonością ludzkich rąk, więc możliwości Midjourney i jego konkurentów zostały wystawione na próbę. To prawda, nawet DALL-E ma skłonność do nierealistycznych palców i paznokci.
Szum był nieproporcjonalny, biorąc pod uwagę, że ręce generowane przez sztuczną inteligencję zawsze stanowiły problem, ale dodatkowa uwaga skłoniła do wydania Midjourney v5, aby ulepszyć wersję v4.
Nowa wersja miała na celu ulepszenie projektu dłoni, co wyraźnie wskazywało, że inżynierowie AI zwrócili uwagę na zabawne zamieszanie i postanowili ulepszyć możliwości oprogramowania.
Inne silniki wolno podążają za przykładem Midjourney, więc naprawianie grafiki AI za pomocą Photoshopa pozostaje nieocenioną umiejętnością. Główną przeszkodą dla programistów jest to, jak skomplikowane jest wytrenowanie sztucznej inteligencji, aby rysowała przekonujące ręce.
Dlaczego generatory obrazów AI walczą z rękami?
Silniki sztucznej inteligencji wykorzystują generatywne sieci przeciwstawne (GAN) lub stabilną dyfuzję do tworzenia obrazów. Obie technologie wymagają obszernych materiałów źródłowych, szkolenia i mocy obliczeniowej, aby stworzyć nawet najbardziej podstawowe dzieła sztuki.
Ponieważ istniejące wcześniej obrazy mają kluczowe znaczenie dla szkolenia sztucznej inteligencji, programiści muszą zasilać swoje oprogramowanie tysiącami, jeśli nie milionami obrazów wraz z monitami — powtarzanie procesu w kółko, aż silnik zrozumie, do czego odnosi się dane słowo i jak to przedstawić obiekt.
Ale obrazy źródłowe, z których uczy się sztuczna inteligencja, to głównie obrazy 2D, na których ręce są przedstawione w różnych pozycjach. Czy proste, czy zakręcone, pokazujące pięć lub trzy palce.
Ostatecznie maszyna tak naprawdę nie rozumie pojęcia rąk, a obrazy, z których się uczy, nie zawsze przedstawiają ręce wyraźnie i wystarczająco konsekwentnie. Właśnie dlatego rozdania w trakcie podróży mogą być takie brzydkie: zamieszanie AI.
Tak ważne jak Obawy Elona Muska dotyczące rozwoju sztucznej inteligencji być może, niektóre części technologii wciąż muszą się wiele nauczyć. A ich przeszkody wykraczają poza niewystarczające przykłady rąk.
Inne powody, dla których generatory obrazów AI powoli się poprawiają
Patrzeć na Modele w połowie podróży, v5 oferuje zaawansowaną spójność między monitami tekstowymi a tworzonymi obrazami, a także wyższą rozdzielczość i dodatkowe narzędzia. Ale takie osiągnięcia nie są tanie.
Wyszkolenie sztucznej inteligencji, aby lepiej radziła sobie z rękami, wymaga karmienia jej lepszymi obrazami, zwłaszcza w 3D. Oznacza to, że wiele czasu i siły roboczej jest poświęcanych na procesy, od pozyskiwania materiałów źródłowych po ulepszanie kodowania i powtarzanie szkolenia, dopóki sztuczna inteligencja nie zrobi tego dobrze.
Nawet wtedy oprogramowanie może popełniać błędy w zachwycających dziełach sztuki. Poza tym, że jest to ogromna i skomplikowana praca, jest kosztowna. Więc nie oczekuj darmowe generatory tekstu na obraz AI aby jeszcze zbliżyć się do kalibru Midjourney.
Mówiąc prościej, problem z silnikami AI nie polega tylko na niezdolności tych programów komputerowych do pełnego zrozumienia, jak wyglądają lub działają ludzkie cechy, takie jak ręce i stopy. Sprowadza się to również do kosztów oraz dostępu technologii do obrazów 3D i technik uczenia maszynowego, które mogą pomóc generatorom w bardziej realistycznym zrozumieniu otaczającego ich świata.
Generatory obrazów AI nie będą walczyć wiecznie
Ręce są trudną koncepcją dla sztucznej inteligencji, aby owinąć swoją binarną głowę, ale rozwiązania tego problemu już działają. Midjourney, DALL-E 2 i inne platformy będą w końcu w stanie ograniczyć dziwaczne palce do minimum, jeśli nie całkowicie je wyeliminować.
Postępy w innych dziedzinach sztucznej inteligencji zapewniają ciągłą ewolucję technologii, a jej programiści zawsze uczą się nowych sposobów jej stosowania i ulepszania.