Użytkownicy zwykle uzyskują dostęp do dużych modeli językowych (LLM) za pomocą interfejsu użytkownika za pośrednictwem interfejsu API. Chociaż zapewnia kilka zalet, korzystanie z interfejsów API wprowadza również ograniczenia, takie jak konieczność stałego dostępu do Internetu połączenie, ograniczone dostosowania, możliwe problemy z bezpieczeństwem i firmy ograniczające możliwości modeli poprzez a zapora płatna.
Dzięki skwantyzowanym LLM dostępnym teraz w HuggingFace i ekosystemom sztucznej inteligencji, takim jak H20, Text Gen i GPT4All umożliwiając ładowanie wag LLM na komputerze, masz teraz opcję bezpłatnego, elastycznego i bezpiecznego sztuczna inteligencja.
Na początek oto siedem najlepszych lokalnych/offline LLM, z których możesz teraz korzystać!
1. Hermes GPTQ
Najnowocześniejszy model językowy dopracowany przy użyciu zestawu danych zawierającego 300 000 instrukcji firmy Nous Research. Hermes jest oparty na LlaMA2 LLM firmy Meta i został dopracowany przy użyciu głównie syntetycznych wyjść GPT-4.
Model |
Hermes 13b GPTQ |
Rozmiar modelu |
7,26 GB |
Parametry |
13 miliardów |
Kwantyzacja |
4-bitowy |
Typ |
LaMA2 |
Licencja |
GPL 3 |
Wykorzystanie LlaMA2 jako modelu podstawowego pozwala Hermesowi podwoić rozmiar kontekstu lub maksymalny rozmiar tokena wynoszący 4096. Łącząc rozmiar długiego kontekstu i architekturę enkodera, Hermes znany jest z długich odpowiedzi i niskiego wskaźnika halucynacji. To sprawia, że Hermes jest doskonałym modelem dla różnych przetwarzanie języka naturalnego (NLP) zadań, takich jak pisanie kodu, tworzenie treści i bycie chatbotem.
Istnieje kilka kwantyzacji i wersji nowego GPTQ Hermesa. Zalecamy wypróbowanie najpierw modelu Hermes-Llama2 13B-GPTQ, ponieważ jest to wersja najłatwiejsza do wdrożenia przy zachowaniu doskonałej wydajności.
2. Falcon Instruuje GPTQ
Ta skwantyzowana wersja Falcona jest oparta na architekturze dekodera, dostrojonej do surowego modelu Flacon-7b firmy TII. Podstawowy model Falcona został przeszkolony przy użyciu ponad 1,5 biliona tokenów pochodzących z publicznego Internetu. Jako model dekodera opartego wyłącznie na instrukcjach, licencjonowany w ramach Apache 2, Falcon Instruct jest idealny dla małych firm poszukujących modelu do tłumaczenia języków i wprowadzania danych.
Model |
Instruktaż Falcon-7B |
Rozmiar modelu |
7,58 GB |
Parametry |
7 miliardów |
Kwantyzacja |
4-bitowy |
Typ |
Sokół |
Licencja |
Apache 2.0 |
Jednak ta wersja Falcona nie jest idealna do dostrajania i służy wyłącznie do wnioskowania. Jeśli chcesz dostroić Falcona, będziesz musiał użyć surowego modelu, który może wymagać dostępu do sprzętu szkoleniowego klasy korporacyjnej, takiego jak NVIDIA DGX lub Akceleratory sztucznej inteligencji AMD Instinct.
3.GPT4ALL-J Groovy
GPT4All-J Groovy to model tylko z dekoderem, dostrojony przez Nomic AI i licencjonowany w ramach Apache 2.0. GPT4ALL-J Groovy jest oparty na oryginalnym modelu GPT-J, który jest znany ze świetnego generowania tekstu z monitów. GPT4ALL -J Groovy został dopracowany jako model czatu, który doskonale nadaje się do szybkich i kreatywnych aplikacji do generowania tekstu. To sprawia, że GPT4All-J Groovy jest idealny dla twórców treści, pomagając im w pisaniu i pracach twórczych, niezależnie od tego, czy jest to poezja, muzyka czy opowiadania.
Model |
GPT4ALL-J Groovy |
Rozmiar modelu |
3,53 GB |
Parametry |
7 miliardów |
Kwantyzacja |
4-bitowy |
Typ |
GPT-J |
Licencja |
Apache 2.0 |
Niestety, podstawowy model GPT-J został przeszkolony na zbiorze danych tylko w języku angielskim, co oznacza, że nawet ten dopracowany model GPT4ALL-J może czatować i wykonywać aplikacje do generowania tekstu tylko w języku angielskim.
4.WizardCoder-15B-GPTQ
Szukasz modelu specjalnie dostosowanego do kodowania? Pomimo znacznie mniejszych rozmiarów, WizardCoder jest znany jako jeden z najlepszych modeli kodowania, przewyższający inne modele, takie jak LlaMA-65B, InstructCodeT5+ i CodeGeeX. Ten model został przeszkolony przy użyciu specyficznej dla kodowania metody Evol-Instruct, która automatycznie edytuje Twoje podpowiedzi, aby były bardziej efektywnymi podpowiedziami związanymi z kodowaniem, które model może lepiej zrozumieć.
Model |
WizardCoder-15B-GPTQ |
Rozmiar modelu |
7,58 GB |
Parametry |
15 miliardów |
Kwantyzacja |
4-bitowy |
Typ |
Lama |
Licencja |
bigcode-openrail-m |
Dzięki kwantyzacji do modelu 4-bitowego, WizardCoder może być teraz używany na zwykłych komputerach PC, gdzie osoby fizyczne mogą go używać do eksperymentowania oraz jako asystent kodowania dla prostszych programów i skryptów.
5. Wizard Vicuna Uncensored-GPTQ
Wizard-Vicuna GPTQ to skwantyzowana wersja Wizard Vicuna oparta na modelu LlaMA. W przeciwieństwie do większości LLM udostępnionych publicznie, Wizard-Vicuna to nieocenzurowany model z usuniętym wyrównaniem. Oznacza to, że model nie ma takich samych standardów bezpieczeństwa i moralnych, jak większość modeli.
Model |
Wizard-Vicuna-30B-Uncensored-GPTQ |
Rozmiar modelu |
16,94 GB |
Parametry |
30 miliardów |
Kwantyzacja |
4-bitowy |
Typ |
Lama |
Licencja |
GPL 3 |
Chociaż prawdopodobnie pozowanie Problem z kontrolą wyrównania AI, posiadanie nieocenzurowanego LLM również wydobywa to, co najlepsze z modelu, ponieważ pozwala odpowiadać bez żadnych ograniczeń. Pozwala to również użytkownikom na dodanie własnego dostosowania do tego, jak sztuczna inteligencja powinna działać lub odpowiadać na podstawie danego monitu.
6. Orca Mini-GPTQ
Chcesz poeksperymentować z modelem przeszkolonym w zakresie unikalnej metody uczenia się? Orca Mini to nieoficjalna modelowa implementacja artykułów badawczych Microsoftu Orca. Został przeszkolony przy użyciu metody uczenia się nauczyciel-uczeń, w której zbiór danych był pełen wyjaśnień, a nie tylko podpowiedzi i odpowiedzi. Teoretycznie powinno to skutkować inteligentniejszym uczniem, w którym model może zrozumieć problem, zamiast tylko szukać par danych wejściowych i wyjściowych, takich jak typowe działanie LLM.
Model |
Orca Mini-GPTQ |
Rozmiar modelu |
8,11 GB |
Parametry |
3 miliardy |
Kwantyzacja |
4-bitowy |
Typ |
Lama |
Licencja |
MIT |
Dzięki zaledwie trzem miliardom parametrów Orca Mini GPTQ jest łatwy w obsłudze nawet na słabszych systemach. Jednak ten model nie powinien być używany do niczego profesjonalnego, ponieważ generuje fałszywe informacje, stronnicze i obraźliwe odpowiedzi. Ten model powinien być wykorzystywany do nauki i eksperymentowania z Orca i jej metodami.
7.LlaMA 2 Czat GPTQ
LlaMA 2 jest następcą oryginalnej LlaMA LLM, która dała początek większości modeli z tej listy. LlaMA 2 to zbiór kilku LLM, z których każdy jest trenowany przy użyciu 7-70 miliardów parametrów. Ogólnie rzecz biorąc, LlaMA 2 został wstępnie przeszkolony przy użyciu 2 bilionów tokenów danych pobranych z publicznie dostępnych zestawów danych instrukcji.
Model |
Falcon-40B-Instruct-GPTQ |
Rozmiar modelu |
7,26 GB |
Parametry |
3 miliardy |
Kwantyzacja |
4-bitowy |
Typ |
OpenLaMA |
Licencja |
EULA (Metalicencja) |
LlaMA 2 jest przeznaczony do użytku komercyjnego i badawczego. W związku z tym model ten najlepiej jest stosować po dopracowaniu w celu uzyskania lepszej wydajności w określonych zadaniach. Ten konkretny model GPTQ czatu LlaMA 2 został dopracowany i zoptymalizowany pod kątem dialogów w języku angielskim, dzięki czemu jest to możliwe idealny model dla firm i organizacji jako chatbot bez dodatkowego szkolenia wymagany. Zgodnie z warunkami firmy, które mają mniej niż 700 milionów użytkowników, mogą korzystać z LlaMA 2 bez żadnych opłat licencyjnych od Meta lub Microsoft.
Wypróbuj lokalne duże modele językowe już dziś
Niektóre z wymienionych powyżej modeli mają kilka wersji pod względem parametrów. Ogólnie rzecz biorąc, wersje o wyższych parametrach dają lepsze wyniki, ale wymagają mocniejszego sprzętu, podczas gdy wersje o niższych parametrach będą generować wyniki o niższej jakości, ale mogą działać na słabszym sprzęcie. Jeśli nie masz pewności, czy Twój komputer może uruchomić ten model, spróbuj najpierw wybrać wersję z niższymi parametrami, a następnie kontynuuj, aż poczujesz, że spadek wydajności nie jest już do zaakceptowania.
Ponieważ skwantyzowane modele na tej liście zajmują tylko kilka gigabajtów miejsca i platformy do wdrażania modeli, takie jak GPT4All i Text-Generation-WebUI można łatwo zainstalować za pomocą instalatorów uruchamianych jednym kliknięciem, wypróbowanie kilku modeli i wersji modeli nie powinno zająć dużo czasu i wysiłku.
Więc na co czekasz? Wypróbuj lokalny model już dziś!