Zaledwie kilka miesięcy temu, jeśli chciałeś stworzyć obraz czegoś, musiałeś umieć szkicować, malować lub używać jednego z narzędzi do robienia zdjęć, o których inni mówią. Jednak po 2022 roku wszystko się zmieniło, wszystko dzięki sztucznej inteligencji – tak, jak w przypadku „sztucznej inteligencji”.

Zamiast próbować zdominować świat, artystyczne narzędzia sztucznej inteligencji mogą przekształcić wszystko, co im opiszesz, w obraz.

Dołącz do nas, gdy wkraczamy w świat wizualizacji tekstu wspomaganej sztuczną inteligencją i zobacz, jak możesz używać takich narzędzi do przekształcania swoich myśli w rzeczywiste obrazy, po prostu wpisując to, co masz na myśli.

Dall-E: Artystyczna strona GPT-3 OpenAI

Pierwsze narzędzia wykorzystujące sztuczną inteligencję, które stały się popularne, były oparte na GPT-3 OpenAI. Jednym z powodów była otwartość projektu na dostęp z zewnątrz, co doprowadziło do pewnych sugestii, które: GPT-3 to przyszłość pracy twórczej.

Dziś możesz korzystać z oficjalnych narzędzi, które znajdziesz na

Witryna beta OpenAI lub rozwiązania firm trzecich, które wykorzystują jego supermoce językowe. Na przykład możesz poprosić GPT-3 o przygotowanie szkicu posta, odpowiedzi na proste pytania, a nawet poprawienie lub przetłumaczenie tekstu.

W 2022 OpenAI ujawniło, że GPT-3 jest równie dobry w tworzeniu obrazów. Projekt DALL-E, gra na podstawie filmu WALL-E firmy Pixar i imienia Dali, wykorzystuje GPT-3 nie do pracy z tekstem, ale jako silnik do tworzenia obrazów.

Podobnie jak w przypadku GPT-3 i tekstu, DALL-E nie jest tak naprawdę kreatywnym geniuszem, materializującym obrazy znikąd. Zamiast tego został „nauczony” na milionach obrazów, które już istnieją w Internecie. Jego moc AI polega na analizowaniu tych obrazów, pobieraniu z nich elementów, poprawianiu, przekształcaniu, dostosowywaniu i wreszcie łączeniu ich w nowe obrazy.

Przynajmniej to uproszczona wersja tego, co dzieje się w tle. Większość ludzi będzie dbać tylko o to, co widzą przed sobą, a jest to pole tekstowe, w którym możesz coś wpisać i zobaczyć, jak po kilku minutach zmienia się to w obraz.

Obrazowa odpowiedź Google

Google jest jednym z trzech najlepszych „graczy” w badaniach nad sztuczną inteligencją. Mimo to ich postępy nie są łatwo dostrzegalne, a ich implementacje w produktach nie są tak dostępne, jak oferty OpenAI.

Jedną z pierwszych szeroko dostępnych implementacji Google AI była usługa Google Docs i Gmail, w formie bardziej inteligentnego autouzupełniania i sugestii, znana jako Smart Compose. Nie będziemy zagłębiać się w szczegóły, ponieważ omówiliśmy wcześniej Inteligentne tworzenie (i jak z niego korzystać).

Gdy te funkcje są aktywne, aplikacje internetowe Google porównują to, co pisze użytkownik, z tym, co w przeszłości napisały miliony innych osób. Następnie sugeruje, co napisali później.

To dowód na to, że wbrew temu, w co lubimy wierzyć, nie różnimy się aż tak bardzo. Jeśli 99 na 100 osób wpisze „później” po „do zobaczenia”, prawdopodobnie tak samo będziemy pisać dalej.

Wszyscy używaliśmy jakiejś formy autouzupełniania, nawet z czasów predykcyjnego systemu tekstowego T9 w erze „głupców”. Dlatego narzędzia AI Google nie wydawały się tak inteligentne jak GPT-3 OpenAI. Nie czuli się tak bardziej w użyciu niż lepszy system T9, ulepszony na miarę XXI wieku. I dlatego też ujawnienie Imagena było pewnym szokiem.

Podobnie jak DALL-E na sterydach, Imagen jest narzędziem do wizualizacji tekstu. W oparciu o to, co jest obecnie dostępne, Imagen może tworzyć „czystsze” i bardziej żywe obrazy, jednocześnie wiedząc, jak radzić sobie z zaawansowanymi funkcjami, takimi jak rozpraszanie i przezroczystość.

Niestety w chwili pisania tego tekstu dostęp do Imagen pozostaje ograniczony, więc nie mogliśmy go wypróbować.

DALL-E Mini i przyjaciele: Otwarte dla biznesu

Nie możesz swobodnie uzyskać dostępu do DALL-E i Imagen — na razie. Mimo to dostępnych jest już wiele alternatyw, jeśli chcesz się pobawić przy generowaniu obrazów tekstowych za pomocą sztucznej inteligencji.

Mając na uwadze, że są to wczesne dni, a wyniki lub wrażenia użytkownika, które oferują, mogą być dalekie od optymalnych, nadal warto sprawdzić niektóre z poniższych.

Tworzenie memów z Dall-E Mini

Dzięki połączeniu ponad adekwatnych wyników i przyjaznego dla użytkownika interfejsowi, ale co ważniejsze, jego szerokiej dostępności, DALL-E mini stał się jednym z najpopularniejszych wizualizatorów tekstu AI.

Daleki od ideału, czasami wyniki DALL-E mini mogą być bardziej abstrakcyjne niż zamierzone.

Innym razem może nie stworzyć tego, co miałeś na myśli, ale może się zbliżyć.

Po eksplozji popularności, twórcy DALL-E mini przenieśli go do nowego domu pod nowym brandingiem. Teraz możesz znaleźć najnowszą wersję DALL-E mini jako Kredka na własnej stronie.

Korzystanie z Craiyon dzisiaj jest tak proste, jak wyszukiwanie w Internecie istniejącego obrazu. Możesz odwiedzić jego witrynę, wpisać opis swojego zdjęcia w jego polu tekstowym i nacisnąć Enter. Po chwili zobaczysz wyniki na ekranie.

Uderzające jest to, jak dobrze Craiyon i podobne narzędzia naśladują style wizualne. Na przykład poprosiliśmy go o wyczarowanie obrazów szczeniaka na deskorolce:

Następnie użyliśmy dokładnej frazy, ale dodaliśmy po niej „styl Pixar”. Po chwili Craiyon pokazał siatkę bardziej „kreskówkowych” obrazów, bliższych temu, co postrzegamy jako grafikę śledzącą promienie Pixara w ich ukochanych filmach.

Craiyon dał nam jeszcze lepsze wyniki, gdy w tym samym monicie zastąpiliśmy „styl Pixara” „stylem anime”.

Anime jest bardziej stylizowane w swoim wyglądzie niż bardziej realistyczne obrazy Pixara, co pomogło Craiyonowi stworzyć niemal gotowe do użycia obrazy.

Wygłupiać się z utajoną dyfuzją

Model Latent Diffusion wytrenowany na zestawie danych LAION-400M to kolejny interesujący wizualizator tekstu AI. Jednak jego użycie jest również bardziej skomplikowane. Musisz uruchomić go online na wirtualnej maszynie i bawić się jego różnymi parametrami, zamiast tylko wpisywać go w polu tekstowym. Mimo to jest to łatwiejsze niż się wydaje.

  1. Odwiedzić Przestrzeń współpracy Google Latent Diffusion to jest obecnie jego dom.
  2. Przewiń trochę w dół i zauważ Podpowiedź pole pod Parametry. Zastąp domyślny monit tym, co ma przedstawiać obraz.
  3. Wybierać Uruchom wszystko od Czas pracy menu lub naciśnij KLAWISZ KONTROLNY + F9.
  4. Jeśli chcesz mieć możliwość eksportowania wyprodukowanych obrazów bezpośrednio z narzędzia, odpowiedz pozytywnie na pytanie, czy chcesz połączyć je z kontem Dysku Google. Narzędzie zajmuje trochę czasu, aby zakończyć konfigurację i musi pobrać niektóre pliki w trakcie procesu.

Zwiększenie wartości dla Kroki, Iteracje, oraz Samples_in_parallel, może prowadzić do bardziej szczegółowych wyników. Narzędzie jest jednak niezwykle wymagające pod względem zasobów na serwerach Google. W rezultacie może się zawiesić, jeśli zbytnio zwiększysz te wartości lub proces tworzenia konkretnego obrazu stanie się bardziej skomplikowany niż oczekiwano.

Ciekawe alternatywy

Spędziliśmy dużo czasu testując DALL-E mini i Latent Diffusion. Nasza metoda naukowa składała się z dwóch odrębnych części. Najpierw musieliśmy wymyślić koncepcje, które można by dokładnie określić jako szalone. Następnie poproś wizualizatorów AI, aby zamienili je w obrazy. Częściej niż się spodziewano, im się to udało, zbliżając się do ogólnej konfiguracji, którą sobie wyobrażaliśmy.

Wypróbowaliśmy również niektóre z dostępnych alternatyw dla tego artykułu. Nadal czekamy na dostęp do innych. Niektóre z nich, które warto sprawdzić, to (w dowolnej kolejności):

  • W połowie drogi
  • MindsEye
  • Gwiaździste AI
  • Śnić
  • Dyfuzja dyskotekowa

Czy sztuka generowana przez sztuczną inteligencję zastąpi sztuki wizualne?

Obfitość i stale rosnąca popularność narzędzi do generowania obrazów opartych na sztucznej inteligencji prowadzi wielu do wniosku, że sztuki wizualne wkrótce umrą. Jaki jest sens w inwestowaniu czasu i energii, aby nauczyć się rysować lub używać skomplikowanego oprogramowania do wizualizacji rzeczy, gdy sztuczna inteligencja może to zrobić szybciej (i wkrótce lepiej) niż ty?

Jeśli zauważyłeś, wszystkie te narzędzia są „nauczone na zestawach danych”. W prostym języku oznacza to, że robią to, co robią, dzięki temu, że ludzie już wcześniej zrobili to samo.

To wskazówka, dlaczego te narzędzia nie mogą zastąpić ludzkiego artyzmu, kreatywności i pomysłowości. Są naśladowcami, inteligentnymi replikatorami. Bez oryginałów wyprodukowanych przez ludzi, na których są szkoleni, nie byliby w stanie produkować żadnych materiałów.

Ale to jest teraźniejszość i przyznajemy, że nie wiemy, co przyniesie przyszłość. Na razie artyści wizualni mogą spać spokojnie. Jednak w miarę rozwoju AI wielu specjalistów w tej dziedzinie zgadza się, że nie jest to kwestia tego, czy kiedykolwiek zastąpi ona pracę ludzi takich jak ty. To tylko kwestia kiedy.

Ale hej, to nie tylko zguba i mrok. Podczas gdy Skynet przygotowuje się do podjęcia naszej pracy, przynajmniej możemy poprawić sobie nastrój, bez wysiłku tworząc obrazy szczeniąt na deskorolkach!