Seria procesorów graficznych AMD Instinct staje się popularna w społeczności komputerów i sztucznej inteligencji. Dlatego.

Nie ma wątpliwości, że NVIDIA nadal dominuje w przestrzeni obliczeń równoległych dzięki różnym popularnym seriom procesorów graficznych. Ale dzięki akceleratorom AI Instinct firmy AMD, które są wyposażone w dwa najnowsze i największe superkomputery (Frontier i El Capitan) oraz rosnące poparcie społeczności dla ich otwartej platformy ROCm, NVIDIA mogła znaleźć swojego największego rywala.

Czym dokładnie są akceleratory AMD Instinct AI? Co czyni je potężnymi i jak wypada w porównaniu z procesorami graficznymi NVIDIA Tensor?

Co to jest procesor AMD Instinct?

Procesory AMD Instinct to sprzęt klasy korporacyjnej używany do obliczeń o wysokiej wydajności (HPC) i przetwarzania akcelerowanego przez sztuczną inteligencję. W przeciwieństwie do zwykłych procesorów graficznych klasy konsumenckiej, procesory graficzne Instinct specjalizują się w lepszym radzeniu sobie z nauką AI i innymi zadaniami o wysokiej wydajności dzięki innowacjom w oprogramowaniu i sprzęcie.

instagram viewer

Seria procesorów graficznych AMD Instinct została wykorzystana do zasilania pierwszego superkomputera, który przełamał barierę eksaskali, osiągając wydajność 1,1 EFLOP przy operacjach podwójnej precyzji na sekundę. Superkomputery korzystające z procesorów graficznych Instinct są obecnie wykorzystywane do badań nad lekami na raka, zrównoważoną energią i zmianami klimatycznymi.

Jak procesory Instinct przyspieszają sztuczną inteligencję i HPC

Dla najpotężniejszych na świecie serwerów głównego nurtu i superkomputerów aby osiągnąć przetwarzanie na poziomie eksaskali, akceleratory AMD Instinct musiały zostać wyposażone w kilka ulepszeń technologicznych i innowacji.

Omówmy niektóre nowe i zaktualizowane technologie stosowane w procesorach graficznych AMD Instinct.

1. Oblicz DNA (CDNA)

Źródło obrazu: Pascal Liebart/AMDBiblioteka

Najnowsze akceleratory AMD Instinct (począwszy od MI100) wykorzystywały firmową architekturę CDNA.

CDNA koncentruje się przede wszystkim na funkcjach, takich jak przetwarzanie równoległe, hierarchia pamięci i zoptymalizowana wydajność obliczeniowa dzięki technologii Matrix Core. Nawet HPC i sztuczna inteligencja lub uczenie maszynowe działające na pojedynczych serwerach mogą być obsługiwane przez CDNA, a także ogromne komputery eksaskalowe.

Technologia Matrix Core firmy AMD przyspiesza uczenie się sztucznej inteligencji, obsługując operacje o mieszanej precyzji. Możliwość wykonywania obliczeń z różną precyzją pozwala procesorom graficznym Instinct na wydajne obliczanie operacji na macierzach w oparciu o wymagany poziom precyzji.

Najpopularniejsze formaty precyzji obliczeń to FP64, FP32, FP16, BF16 i INT8. FP oznacza Floating Point, BF to Brain Floating Point, a INT to Integer. Im wyższa liczba odpowiadająca formatowi, tym dokładniejsze obliczenia. Działanie w systemie 64-bitowym jest znane jako podwójna precyzja. W przypadku 32-bitowej jest to pojedyncza precyzja, 16-bitowa to połowiczna precyzja i tak dalej.

Ponieważ duża część uczenia modeli głębokiego uczenia się nie wymaga dużej precyzji, mając możliwość obliczania macierzy operacje z połową precyzji lub nawet ćwierć precyzji dla wnioskowania znacznie zmniejszają obciążenie pracą, przyspieszając w ten sposób sztuczną inteligencję uczenie się.

2. Pamięć o dużej przepustowości (HBM)

Źródło zdjęcia: Jason De Vos/AMDBiblioteka

Każdy akcelerator AMD Instinct AI jest wyposażony w maksymalnie 880 rdzeni Matrix. Ponieważ procesory AMD Matrix Core są w stanie wykonać 383 TFLOP obliczeń z połowiczną precyzją, niezbędna jest ultraszybka pamięć. Najnowsze oferty AMD Instinct są wyposażone w pamięć o dużej przepustowości (HBM) zamiast zwykłej pamięci RAM DDR4 lub DDR5.

W przeciwieństwie do konwencjonalnej pamięci, HBM wykorzystuje tak zwaną architekturę stosową 3D. Ten typ architektury odnosi się do podejścia projektowego, w którym matryce DRAM są układane pionowo jedna na drugiej. Pozwala to na układanie matryc zarówno na osi pionowej, jak i poziomej, stąd termin układanie 3D.

Dzięki tej technologii układania w stosy 3D, HBM mogą mieć pojemność pamięci fizycznej tak dużą, jak kilkaset gigabajtów na moduł, podczas gdy DRR5 może obsłużyć tylko do dziesiątek gigabajtów na moduł. Oprócz pojemności wiadomo, że HBM mają również wyższą wydajność pod względem szybkości przesyłania i lepszą efektywność energetyczną niż zwykła pamięć DDR.

3. Tkanina nieskończoności

Kolejną innowacją zawartą w procesorach graficznych Instinct jest technologia Infinity Fabric firmy AMD. Infinity Fabric to rodzaj systemu połączeń, który łączy procesory i karty graficzne w inteligentny i dynamiczny sposób. Dzięki temu komponenty mogą skutecznie komunikować się ze sobą.

Dzięki Infinity Fabric zamiast łączyć komponenty zwykłą magistralą, komponenty są teraz połączone w sieć przypominającą siatkę, w której przepustowość może sięgać nawet kilkuset gigabajtów na sekundę.

Oprócz połączenia przypominającego siatkę, Infinity Fabric wykorzystuje również czujniki osadzone w każdej kostce do dynamicznego działania częstotliwość sterowania, szybkości przesyłania danych i inne zachowania adaptacyjne, optymalizując wydajność i minimalizując czas oczekiwania.

4. Platforma programistyczna ROCm

NVIDIA CUDA (Compute Unified Device Architecture) jest najczęściej używaną platformą programistyczną do szkolenia modeli sztucznej inteligencji. Problem z CUDA polega na tym, że działa tylko z procesorami graficznymi NVIDIA. Jest to jeden z głównych powodów, dla których NVIDIA ma przytłaczającą większość udziałów w rynku akceleratorów GPU HPC i AI.

Ponieważ AMD chciało zdobyć większy kawałek rynku HPC i AI, musiało opracować własną platformę ROCm (Radeon Open Compute). ROCm to platforma oprogramowania typu open source, która umożliwia używanie procesorów graficznych Instinct jako akceleratorów sztucznej inteligencji.

Chociaż niekoniecznie jest częścią sprzętu Instinct, ROCm ma fundamentalne znaczenie, jeśli chodzi o przetrwanie linii procesorów graficznych Instinct. Z ROCm, programistami i naukowcy uzyskują narzędzia ROCm, kompilator, sterowniki jądra, całą gamę bibliotek oraz dostęp do platform, takich jak TensorFlow i PyTorch, aby rozwijać preferowane Język programowania AI.

Jak akceleratory AI Instinct porównują się z akceleratorami AI Radeon GPU?

AMD oferuje linię procesorów graficznych Instinct dla przedsiębiorstw i procesorów graficznych Radeon dla zwykłych konsumentów. Jak omówiono wcześniej, procesor graficzny Instinct wykorzystuje architekturę AMD CDNA, HBM i połączenie Infinity Fabric. I odwrotnie, Radeon wykorzystuje architekturę AMD RDNA, pamięć DDR6 i Infinity Cache.

Chociaż są mniej wydajne, seria akceleratorów AI Radeon wciąż oferuje moc, implementując jeden lub dwa rdzenie akceleratora AI na jednostkę obliczeniową. Najnowszy Karta graficzna Radeon RX7900XT ma dwa rdzenie akceleratora AI na jednostkę obliczeniową, co pozwala na 103 TFLOP szczytowych obliczeń z połowiczną precyzją i 52 TFLOP szczytowych obliczeń z pojedynczą precyzją.

Podczas gdy seria procesorów graficznych Instinct lepiej nadaje się do LLM i HPC, akceleratory Radeon AI mogą być używane do precyzyjnego dostrajania wstępnie wytrenowanych modeli, wnioskowania i zadań intensywnie korzystających z grafiki.

Instynkt AMD vs. NVIDIA Tensor

Według Badanie TrendForce, NVIDA ma 80% udziału w rynku procesorów graficznych do serwerów, podczas gdy AMD ma tylko 20%. Ten przytłaczający sukces firmy NVIDIA wynika z faktu, że jest to firma specjalizująca się w projektowaniu i montażu układów GPU. To pozwala im projektować znacznie wydajniejsze układy GPU, które nie mają sobie równych w innych ofertach.

Porównajmy Instinct MI205X firmy AMD i H100SXM5 firmy NVIDIA, korzystając ze specyfikacji z Oficjalna strona AMD I Własny arkusz danych firmy NVIDIA:

Model GPU

FP64 (TFLOPS)

FP32 (TFLOPS)

FP16 (TFLOPS)

INT8 (TFLOPS)

AMD Instinct MI250X

30.0

60.0

1000

2000

NVIDIA H100SXMS

47.9

95.7

383.2

383

Jak widać w tabeli MI250X AMD radzi sobie lepiej pod względem podwójnej precyzji i połowicznej precyzji obliczeń, podczas gdy H100SXMS firmy NVIDIA jest znacznie lepszy pod względem matrycy o połowicznej i ćwierć-precyzji obliczenia. To sprawia, że ​​MI250X firmy AMD lepiej nadaje się do HPC, podczas gdy H100SXMS firmy NVIDIA z uczeniem się i wnioskowaniem AI.

Przyszłość procesorów AMD Instinct

Chociaż najnowsza oferta AMD, MI250X, jest przeznaczona do HPC, ich nadchodzący MI300 jest bardziej zorientowany na szkolenie AI. Ogłoszono, że ten akcelerator AI będzie APU, łączącym GPU i CPU w jednym pakiecie. Dzięki temu MI300 może korzystać z architektury CNDA3 Unified Memory APU, w której procesor graficzny i procesor używają tylko jednej pamięci, zwiększając wydajność i obniżając cenę.

Chociaż AMD nie będzie dziś konkurować z NVIDIA na rynku akceleratorów AI, po wydaniu MI300 i ROCm stanie się dopracowana, seria AMD Instinct może wystarczyć, by przejąć znaczną część rynku akceleratorów sztucznej inteligencji NVIDIA.