Możesz używać Meta's Llama 2 online, ale możesz dostosować i spersonalizować doświadczenie, jeśli zainstalujesz je na swoim komputerze lokalnym.
Meta wypuściła Lamę 2 latem 2023 roku. Nowa wersja Llama jest udoskonalona o 40% więcej tokenów niż oryginalny model Llama, podwajając długość kontekstu i znacznie przewyższając inne dostępne modele z otwartym kodem źródłowym. Najszybszym i najłatwiejszym sposobem uzyskania dostępu do Lamy 2 jest interfejs API na platformie internetowej. Jeśli jednak chcesz uzyskać najlepszą jakość, najlepiej będzie zainstalować i załadować Llamę 2 bezpośrednio na swój komputer.
Mając to na uwadze, stworzyliśmy przewodnik krok po kroku, jak używać interfejsu Text-Generation-WebUI do ładowania skwantowanej Lamy 2 LLM lokalnie na komputerze.
Dlaczego warto zainstalować Lamę 2 lokalnie
Istnieje wiele powodów, dla których ludzie decydują się na bezpośrednie uruchomienie Lamy 2. Niektórzy robią to ze względów prywatności, inni w celu dostosowania, a jeszcze inni ze względu na możliwości offline. Jeśli badasz, dostrajasz lub integrujesz Llamę 2 w swoich projektach, dostęp do Llama 2 poprzez API może nie być dla Ciebie. Celem uruchomienia LLM lokalnie na komputerze jest zmniejszenie zależności
narzędzia sztucznej inteligencji innych firm i korzystaj ze sztucznej inteligencji w dowolnym miejscu i czasie, nie martwiąc się o wyciek potencjalnie wrażliwych danych do firm i innych organizacji.Powiedziawszy to, zacznijmy od przewodnika krok po kroku dotyczącego lokalnej instalacji Lamy 2.
Aby uprościć sprawę, użyjemy instalatora jednym kliknięciem dla Text-Generation-WebUI (programu służącego do ładowania Lamy 2 z GUI). Aby jednak ten instalator działał, należy pobrać narzędzie Visual Studio 2019 Build Tool i zainstalować niezbędne zasoby.
Pobierać:Visual Studio 2019 (Bezpłatny)
- Śmiało, pobierz wersję społecznościową oprogramowania.
- Teraz zainstaluj Visual Studio 2019, a następnie otwórz oprogramowanie. Po otwarciu zaznacz pole wyboru Tworzenie desktopów w C++ i naciśnij instaluj.
Teraz, gdy masz już zainstalowany program do tworzenia komputerów stacjonarnych w języku C++, czas pobrać instalator jednym kliknięciem Text-Generation-WebUI.
Krok 2: Zainstaluj Text-Generation-WebUI
Instalator Text-Generation-WebUI za pomocą jednego kliknięcia to skrypt, który automatycznie tworzy wymagane foldery i konfiguruje środowisko Conda oraz wszystkie niezbędne wymagania do uruchomienia modelu AI.
Aby zainstalować skrypt, pobierz instalator jednym kliknięciem, klikając Kod > Pobierz ZIP-a.
Pobierać:Instalator Text-Generation-WebUI (Bezpłatny)
- Po pobraniu rozpakuj plik ZIP do preferowanej lokalizacji, a następnie otwórz wyodrębniony folder.
- W folderze przewiń w dół i poszukaj odpowiedniego programu startowego dla swojego systemu operacyjnego. Uruchom programy klikając dwukrotnie odpowiedni skrypt.
- Jeśli korzystasz z systemu Windows, wybierz start_windows plik wsadowy
- w przypadku systemu MacOS wybierz start_macos skrypt powłoki
- dla Linuksa, start_linux Skrypt powłoki.
- Twój program antywirusowy może wygenerować alert; jest okej. Podpowiedź to tylko program antywirusowy fałszywie pozytywny do uruchamiania pliku wsadowego lub skryptu. Kliknij Mimo wszystko biegnij.
- Otworzy się terminal i rozpocznie się konfiguracja. Na początku instalacja zatrzyma się i zapyta, jakiego procesora graficznego używasz. Wybierz odpowiedni typ procesora graficznego zainstalowanego na komputerze i naciśnij Enter. Dla tych, którzy nie mają dedykowanej karty graficznej, wybierz Brak (chcę uruchamiać modele w trybie procesora). Należy pamiętać, że działanie w trybie procesora jest znacznie wolniejsze w porównaniu do uruchamiania modelu z dedykowanym procesorem graficznym.
- Po zakończeniu konfiguracji możesz teraz uruchomić lokalnie Text-Generation-WebUI. Można to zrobić otwierając preferowaną przeglądarkę internetową i wpisując podany adres IP w adresie URL.
- WebUI jest teraz gotowy do użycia.
Jednak program jest jedynie modułem ładującym modele. Pobierzmy Llamę 2, aby uruchomić moduł ładujący modele.
Krok 3: Pobierz model Lamy 2
Decydując, której wersji Lamy 2 potrzebujesz, należy wziąć pod uwagę kilka rzeczy. Należą do nich parametry, kwantyzacja, optymalizacja sprzętu, rozmiar i wykorzystanie. Wszystkie te informacje znajdziesz w nazwie modelu.
- Parametry: Liczba parametrów używanych do uczenia modelu. Większe parametry zapewniają bardziej wydajne modele, ale kosztem wydajności.
- Stosowanie: Może być standardowy lub czat. Model czatu jest zoptymalizowany do użycia jako chatbot, taki jak ChatGPT, natomiast standardem jest model domyślny.
- Optymalizacja sprzętu: Odnosi się do sprzętu, który najlepiej obsługuje dany model. GPTQ oznacza, że model jest zoptymalizowany do działania na dedykowanym procesorze graficznym, podczas gdy GGML jest zoptymalizowany do działania na procesorze.
- Kwantyzacja: Oznacza dokładność wag i aktywacji w modelu. Do wnioskowania optymalna jest precyzja q4.
- Rozmiar: Dotyczy rozmiaru konkretnego modelu.
Należy pamiętać, że niektóre modele mogą być inaczej rozmieszczone i mogą nawet nie wyświetlać tego samego rodzaju informacji. Jednak tego typu konwencja nazewnictwa jest dość powszechna w Przytulana twarz Biblioteka modeli, więc nadal warto ją zrozumieć.
W tym przykładzie model można zidentyfikować jako średniej wielkości model Lamy 2 wyszkolony na 13 miliardach parametrów zoptymalizowanych pod kątem wnioskowania na czacie przy użyciu dedykowanego procesora.
W przypadku osób korzystających z dedykowanego procesora graficznego wybierz opcję GPTQ model, natomiast dla osób korzystających z procesora wybierz GGML. Jeśli chcesz rozmawiać z modelką tak jak za pomocą ChatGPT, wybierz czat, ale jeśli chcesz poeksperymentować z modelem w jego pełnych możliwościach, skorzystaj z opcji standard Model. Jeśli chodzi o parametry, to wiedz, że zastosowanie większych modeli zapewni lepsze rezultaty kosztem wydajności. Osobiście polecam zacząć od modelu 7B. Jeśli chodzi o kwantyzację, użyj q4, ponieważ służy tylko do wnioskowania.
Pobierać:GGML (Bezpłatny)
Pobierać:GPTQ (Bezpłatny)
Teraz, gdy już wiesz, jakiej wersji Llama 2 potrzebujesz, możesz pobrać żądany model.
W moim przypadku, ponieważ uruchamiam to na ultrabooku, będę używać modelu GGML dostosowanego do czatu, llama-2-7b-chat-ggmlv3.q4_K_S.bin.
Po zakończeniu pobierania umieść model w webui-main-generowanie tekstu > modele.
Teraz, gdy już pobrałeś model i umieściłeś go w folderze modelu, czas skonfigurować moduł ładujący model.
Krok 4: Skonfiguruj interfejs WWW do generowania tekstu
Teraz rozpocznijmy fazę konfiguracji.
- Jeszcze raz otwórz Text-Generation-WebUI, uruchamiając plik start_(Twój system operacyjny) plik (zobacz poprzednie kroki powyżej).
- Na zakładkach znajdujących się nad GUI kliknij Model. Kliknij przycisk odświeżania w menu rozwijanym modelu i wybierz swój model.
- Teraz kliknij menu rozwijane Ładowarka modeli i wybierz AutoGPTQ dla osób korzystających z modelu GTPQ i ctransformatory dla tych, którzy korzystają z modelu GGML. Na koniec kliknij Obciążenie aby załadować swój model.
- Aby skorzystać z modelu, otwórz zakładkę Czat i rozpocznij testowanie modelu.
Gratulacje, pomyślnie załadowałeś Llamę2 na swój komputer lokalny!
Wypróbuj inne LLM
Teraz, gdy wiesz, jak uruchomić Llamę 2 bezpośrednio na swoim komputerze za pomocą Text-Generation-WebUI, powinieneś móc także uruchamiać inne LLM oprócz Lamy. Pamiętaj tylko o konwencjach nazewnictwa modeli i o tym, że na zwykłych komputerach PC można załadować tylko skwantowane wersje modeli (zwykle z dokładnością do q4). Wiele skwantowanych LLM jest dostępnych na HuggingFace. Jeśli chcesz poznać inne modele, wyszukaj TheBloke w bibliotece modeli HuggingFace, a powinieneś znaleźć wiele dostępnych modeli.