Modele AI są tak dobre, jak dane, które do nich trafiają. To sprawia, że ​​te dane są potencjalnym celem ataków.

Postępy w sztucznej inteligencji wywarły znaczący wpływ na różne dziedziny. Dało to wielu entuzjastom technologii powód do niepokoju. W miarę rozszerzania się tych technologii na różne zastosowania, mogą one powodować wzrost liczby ataków przeciwnika.

Czym są ataki kontradyktoryjne w sztucznej inteligencji?

Ataki kontradyktoryjne wykorzystują specyfikacje i luki w modelach sztucznej inteligencji. Uszkadzają dane, z których nauczyły się modele AI i powodują, że modele te generują niedokładne dane wyjściowe.

Wyobraź sobie, że dowcipniś zamienia płytki do scrabble ułożone w ananasa na „applepine”. Jest to podobne do tego, co ma miejsce w atakach przeciwnika.

Kilka lat temu otrzymywanie kilku niepoprawnych odpowiedzi lub danych wyjściowych z modelu AI było normą. Obecnie sytuacja jest odwrotna, ponieważ nieścisłości stały się wyjątkiem, a użytkownicy sztucznej inteligencji oczekują niemal doskonałych wyników.

instagram viewer

Kiedy te modele sztucznej inteligencji są stosowane w rzeczywistych scenariuszach, niedokładności mogą być śmiertelne, przez co ataki przeciwników stają się bardzo niebezpieczne. Na przykład naklejki na znakach drogowych mogą zdezorientować autonomiczny samojezdny samochód i spowodować, że wjedzie on do ruchu lub bezpośrednio w przeszkodę.

Rodzaje ataków wrogich

Istnieją różne formy wrogich ataków. z coraz większa integracja sztucznej inteligencji z codziennymi aplikacjami, ataki te prawdopodobnie staną się gorsze i bardziej złożone.

Niemniej jednak możemy z grubsza podzielić ataki przeciwnika na dwa typy w oparciu o to, ile podmiot atakujący wie o modelu sztucznej inteligencji.

1. Ataki białej skrzynki

W ataki białych skrzynekcyberprzestępcy dysponują pełną wiedzą na temat wewnętrznego działania modelu sztucznej inteligencji. Znają jego specyfikacje, dane treningowe, techniki przetwarzania i parametry. Ta wiedza umożliwia im zbudowanie ataku przeciwnika specjalnie dla modelu.

Pierwszym krokiem w ataku białej skrzynki jest zmiana oryginalnych danych treningowych, uszkadzając je w jak najmniejszy sposób. Zmodyfikowane dane będą nadal bardzo podobne do oryginału, ale na tyle znaczące, że model AI będzie dawał niedokładne wyniki.

To nie wszystko. Po ataku cyberprzestępca ocenia skuteczność modelu, dostarczając mu kontradyktoryjnych przykładów:zniekształcone dane wejściowe zaprojektowane tak, aby model popełniał błędy— i analizuje dane wyjściowe. Im bardziej niedokładny wynik, tym skuteczniejszy atak.

2. Ataki czarnej skrzynki

W przeciwieństwie do ataków typu white box, w których atakujący wie o wewnętrznym działaniu modelu sztucznej inteligencji, sprawcy ataki czarnej skrzynki nie mają pojęcia, jak działa ten model. Po prostu obserwują model z martwego punktu, monitorując jego wartości wejściowe i wyjściowe.

Pierwszym krokiem w ataku czarnej skrzynki jest wybranie celu wejściowego, który model AI chce sklasyfikować. Aktor zagrożenia tworzy następnie złośliwą wersję danych wejściowych, dodając starannie spreparowany szum, perturbacje danych niewidoczne dla ludzkiego oka, ale mogące wywołać model AI awaria.

Złośliwa wersja jest dostarczana do modelu, a dane wyjściowe są obserwowane. Wyniki podane przez model pomagają cyberprzestępcy w dalszym modyfikowaniu wersji, dopóki nie uzyskają wystarczającej pewności, że błędnie sklasyfikuje wszelkie wprowadzane do niej dane.

Techniki stosowane w atakach przeciwnika

Złośliwe podmioty mogą wykorzystywać różne techniki do przeprowadzania wrogich ataków. Oto niektóre z tych technik.

1. Zatrucie

Atakujący mogą manipulować (zatruwać) niewielką częścią danych wejściowych modelu AI, aby zagrozić jego zestawom danych szkoleniowych i dokładności.

Istnieje kilka form zatrucia. Jednym z powszechnych jest zatrucie tylnymi drzwiami, które wpływa na bardzo niewiele danych treningowych. Model AI nadal daje bardzo dokładne wyniki, dopóki nie zostanie „aktywowany” w celu nieprawidłowego działania po zetknięciu z określonymi wyzwalaczami.

2. Uchylanie się

Ta technika jest raczej zabójcza, ponieważ pozwala uniknąć wykrycia, ścigając system bezpieczeństwa sztucznej inteligencji.

Większość modeli AI jest wyposażona w systemy wykrywania anomalii. Techniki unikania wykorzystują przeciwstawne przykłady, które dotyczą bezpośrednio tych systemów.

Technika ta może być szczególnie niebezpieczna w przypadku systemów klinicznych, takich jak autonomiczne samochody lub modele diagnostyki medycznej. Są to dziedziny, w których nieścisłości mogą mieć poważne konsekwencje.

3. Możliwość przenoszenia

Aktorzy wykorzystujący tę technikę nie potrzebują wcześniejszej wiedzy na temat parametrów modelu AI. Używają kontradyktoryjnych ataków, które odniosły sukces w przeszłości przeciwko innym wersjom modelu.

Na przykład, jeśli atak przeciwnika powoduje, że model klasyfikatora obrazu pomyli żółwia z karabinem, dokładny atak może spowodować, że inne modele klasyfikatora obrazu popełnią ten sam błąd. Inne modele mogły zostać przeszkolone na innym zbiorze danych, a nawet mieć inną architekturę, ale mimo to mogły paść ofiarą ataku.

4. Surogacja

Zamiast atakować systemy bezpieczeństwa modelu przy użyciu technik unikania lub wcześniej udanych ataków, atakujący może użyć modelu zastępczego.

Dzięki tej technice atakujący tworzy identyczną wersję modelu docelowego, czyli model zastępczy. Wyniki, parametry i zachowania surogatu muszą być identyczne z oryginalnym modelem, który został skopiowany.

Surogat będzie teraz poddawany różnym atakom przeciwnika, dopóki jeden z nich nie spowoduje, że uzyska on niedokładny wynik lub dokona błędnej klasyfikacji. Następnie ten atak zostanie użyty na pierwotnej docelowej SI.

Jak zatrzymać ataki wroga

Obrona przed atakami przeciwnika może być złożona i czasochłonna, ponieważ cyberprzestępcy stosują różne formy i techniki. Jednak poniższe kroki mogą zapobiec atakom przeciwnika i je powstrzymać.

1. Trening kontradyktoryjności

Najskuteczniejszym krokiem, który może zapobiec atakom przeciwników, jest szkolenie przeciwników, szkolenie modeli i maszyn AI na przykładach przeciwników. Poprawia to solidność modelu i pozwala mu być odpornym na najmniejsze zakłócenia wejściowe.

2. Regularne audyty

Konieczne jest regularne sprawdzanie słabych punktów w systemie wykrywania anomalii modelu AI. Obejmuje to celowe karmienie modelu przykładami przeciwników i monitorowanie zachowania modelu w stosunku do złośliwych danych wejściowych.

3. Oczyszczanie danych

Ta metoda polega na sprawdzaniu, czy do modelu wprowadzane są złośliwe dane wejściowe. Po ich zidentyfikowaniu należy je natychmiast usunąć.

Dane te można zidentyfikować za pomocą walidacji danych wejściowych, która polega na sprawdzeniu danych pod kątem wzorców lub sygnatur znanych wcześniej przykładów kontradyktoryjności.

4. Aktualizacje zabezpieczeń

Trudno byłoby pomylić się z aktualizacjami i poprawkami bezpieczeństwa. Wielowarstwowe zabezpieczenia, takie jak zapory ogniowe, programy chroniące przed złośliwym oprogramowaniem i systemy wykrywania i zapobiegania włamaniom może pomóc w blokowaniu zewnętrznych ingerencji ze strony cyberprzestępców, którzy chcą zatruć model sztucznej inteligencji.

Ataki przeciwnika mogą być godnym przeciwnikiem

Koncepcja ataków kontradyktoryjnych stanowi problem dla zaawansowanego uczenia się i uczenia maszynowego.

W rezultacie modele AI mają być uzbrojone w mechanizmy obronne, takie jak szkolenie przeciwników, regularne audyty, oczyszczanie danych i odpowiednie aktualizacje zabezpieczeń.