Kiedy człowiek patrzy na scenę lub obraz, rozumie to — jakie obiekty się na nim znajdują i co się dzieje, gdy ma miejsce akcja. Z drugiej strony komputer przetwarza tylko dane cyfrowe, które opisują wartość koloru każdego piksela. Dla człowieka rozpoznanie pizzy na zagraconym stole jest łatwe. Ale do niedawna komputery nie były w stanie wykonać tego samego zadania.

Widzenie komputerowe lub CV umożliwia komputerowi wydobycie ważnych informacji z danych wizualnych i dokonanie dokładnych prognoz i zaleceń na podstawie tych informacji.

Jak działa widzenie komputerowe?

Przed wizją komputerową, aby stworzyć program rozpoznający konkretny obraz, osoba musiałaby wykonywać wiele godzin ręcznej pracy nóg. Po pierwsze, należałoby zestawić bazę danych podobnych obrazów.

Następnie te obrazy musiałyby zostać ręcznie przeanalizowane, zmierzone i opatrzone odpowiednimi danymi że zdaniem badacza można zidentyfikować przedmiot, o którym mowa (np. kolor, wymiary i kształt). Dopiero wtedy oprogramowanie będzie mogło służyć do prognozowania.

instagram viewer

Z drugiej strony, wizja komputerowa automatyzuje cały ten proces, wykorzystując podejście uczenia maszynowego znane jako głębokie uczenie. Głębokie uczenie wykorzystuje wielowarstwową sieć neuronową z setkami potencjalnych warstw. W przypadku obrazów jest to zwykle splotowa sieć neuronowa (CNN).

Szczegółowe wyjaśnienie, jak działają głębokie uczenie i sieci neuronowe, wykracza daleko poza zakres tego artykułu. Zasadniczo do sieci neuronowej trafiają duże ilości danych. Sieć neuronowa analizuje dane w sposób powtarzalny, dopóki nie będzie w stanie sformułować dokładnych prognoz na ich temat.

W przypadku CNN wykorzystywanej do zadania widzenia komputerowego, sieć neuronowa przeprowadza dane w kilku krokach. Po pierwsze, zwija obraz na kilka części (pojedyncze piksele lub grupy pikseli, które są wcześniej oznaczone).

Następnie przewiduje, co znajduje się na różnych fragmentach obrazu (np. twarde krawędzie lub określone obiekty). Wielokrotnie sprawdza dokładność tych prognoz i za każdym razem nieznacznie zmienia części algorytmu, aż stanie się bardzo dokładny.

Komputery są teraz tak potężne, że mogą analizować obraz znacznie szybciej niż ludzki mózg, zwłaszcza gdy nauczą się rozpoznawać pewne wzorce. W ten sposób łatwo jest zobaczyć, jak algorytm głębokiego uczenia może przewyższyć ludzkie możliwości.

Jakie są rodzaje wizji komputerowej?

Widzenie komputerowe obejmuje analizę i zrozumienie obrazów oraz uzyskanie odpowiednich przewidywań lub decyzji dotyczących obrazów. Istnieją różne zadania, które wizja komputerowa wykorzysta do osiągnięcia tych celów. Niektóre z nich to:

  • Klasyfikacja obrazu: Rozpoznawany jest typ obrazu. Na przykład, czy jest to twarz, krajobraz czy przedmiot osoby. Tego rodzaju zadania można wykorzystać do szybkiej identyfikacji i klasyfikacji obrazów. Jednym z zastosowań jest automatyczne rozpoznawanie i blokowanie nieodpowiednich treści w mediach społecznościowych.
  • Rozpoznawanie obiektów: Podobnie jak w przypadku klasyfikacji obrazów, rozpoznawanie obiektów może zidentyfikować konkretny obiekt w scenie — jak pizza na zaśmieconym stole.
  • Wykrywanie krawędzi: Powszechnym zastosowaniem wizji komputerowej i zwykle pierwszym krokiem w wykrywaniu obiektów jest identyfikacja twardych krawędzi obrazu.
  • Identyfikacja obiektu: Jest to rozpoznawanie pojedynczych przykładów obiektu lub obrazu, takich jak identyfikacja konkretnej osoby, odciski palców lub pojazd.
  • Wykrywanie obiektów: Wykrywanie to identyfikacja określonej cechy na obrazie, na przykład złamania kości na zdjęciu rentgenowskim.
  • Segmentacja obiektów: Jest to identyfikacja, które piksele na obrazie należą do danego obiektu.
  • Śledzenie obiektów: W sekwencji wideo po rozpoznaniu obiektu można go łatwo śledzić w całym wideo.
  • Przywracanie obrazu: Rozmycie, szum i inne artefakty obrazu można usunąć, dokładnie określając, gdzie na obrazie znajduje się obiekt w porównaniu z tłem.

Przykłady wizji komputerowej

Sztuczna inteligencja to już używany w kilku branżach z oszałamiającym efektem, który jest prawdziwy w przypadku wizji komputerowej. Oto kilka przykładów CV używanego już dzisiaj.

Rozpoznawanie twarzy

Rozpoznawanie twarzy jest obecnie jednym z głównych sposobów wykorzystania wizji komputerowej. W porównaniu z bazami danych znanych twarzy algorytmy widzenia komputerowego mogą bardzo dokładnie zidentyfikować poszczególne osoby.

  • Media społecznościowe analizują obrazy i automatycznie tagują użytkowników, dla których mają dobry wybór obrazów.
  • Laptopy, telefony i urządzenia zabezpieczające mogą identyfikować osoby, aby umożliwić dostęp.
  • Organy ścigania wykorzystują rozpoznawanie twarzy w systemach telewizji przemysłowej do identyfikacji podejrzanych.

Lekarstwo

Widzenie komputerowe jest obecnie wykorzystywane w opiece zdrowotnej, aby zapewnić szybsze i dokładniejsze diagnozy niż są w stanie postawić eksperci. Wiele zastosowań obejmuje analizę zdjęć rentgenowskich, CT lub MRI pod kątem określonych warunków, w tym chorób neurologicznych, guzów oraz złamań lub złamań kości.

Samojezdne samochody

Pojazdy autonomiczne muszą rozumieć swoje otoczenie bezpiecznie jeździć. Oznacza to rozpoznawanie dróg, pasów ruchu, sygnałów drogowych, innych pojazdów, pieszych i nie tylko. Wszystkie te zadania wykorzystują komputerowe systemy wizyjne w czasie rzeczywistym, aby uniknąć kolizji i bezpiecznie jeździć.

Wizja komputerowa jest wyzwaniem

Obecne zastosowania komputerowej wizji już zaczynają zmieniać sposób, w jaki pracujemy w różnych branżach. Od możliwości wykrywania wadliwego lub uszkodzonego sprzętu po dokładne diagnozowanie raka, widzenie komputerowe może ulepszać systemy i ratować życie.

Ale nie jest bez wyzwań. Widzenie komputerowe wciąż jest dalekie od tego, czym jest ludzkie widzenie. Mamy tysiące lat ewolucji, dzięki której możemy rozpoznawać i rozumieć prawie wszystko, co dzieje się wokół nas w czasie rzeczywistym. Ale nie mamy pojęcia, jak ludzkie mózgi wykonują te zadania.

Głębokie uczenie się to ogromny krok we właściwym kierunku, ale nadal wymaga ogromnej ilości pracy stworzyć system, który może wykonać zadanie, które ludzie mogą bardzo łatwo wykonać, na przykład identyfikacja samochodu na Droga. Dzieje się tak, ponieważ komputery bardzo skutecznie wykonują zadania z ograniczeniami. Opracowanie komputera, który może zrozumieć całkowitą złożoność wizualnego świata, to zupełnie inna gra w piłkę.

Ponieważ coraz więcej badań dotyczy zarówno zastosowań sztucznej inteligencji, jak i biologii człowieka, prawdopodobnie w najbliższej przyszłości zobaczymy eksplozję możliwych zastosowań wizji komputerowej.

E-mail
Czym są algorytmy uczenia maszynowego? Oto jak one działają

Algorytmy uczenia maszynowego mają na celu ułatwienie życia i ulepszenie systemów, ale mogą się nie udać i mieć złe konsekwencje.

Czytaj dalej

Powiązane tematy
  • Wyjaśnienie technologii
  • Programowanie
  • Sztuczna inteligencja
  • Sieci neuronowe
O autorze
Jake Harfield Har (16 opublikowanych artykułów)

Jake Harfield jest niezależnym pisarzem mieszkającym w Perth w Australii. Kiedy nie pisze, zwykle jest w buszu i fotografuje lokalną przyrodę. Możesz go odwiedzić na www.jakeharfield.com

Więcej od Jake'a Harfielda

Zapisz się do naszego newslettera

Dołącz do naszego newslettera, aby otrzymywać porady techniczne, recenzje, bezpłatne e-booki i ekskluzywne oferty!

Jeszcze jeden krok…!

Potwierdź swój adres e-mail w e-mailu, który właśnie do Ciebie wysłaliśmy.

.