Ten duży model językowy został przeszkolony w ciemnej sieci w celu oceny zagrożeń cyberbezpieczeństwa. Oto, co musisz wiedzieć.
Popularność dużych modeli językowych (LLM) gwałtownie rośnie, a nowe wciąż pojawiają się na scenie. Modele te, takie jak ChatGPT, są zazwyczaj szkolone w różnych źródłach internetowych, w tym w artykułach, witrynach internetowych, książkach i mediach społecznościowych.
W bezprecedensowym posunięciu zespół południowokoreańskich naukowców opracował DarkBERT, LLM przeszkolony na zbiorach danych pobranych wyłącznie z ciemnej sieci. Ich celem było stworzenie narzędzia AI, które przewyższa istniejące modele językowe i pomaga badaczom zagrożeń, organom ścigania i specjalistom ds. cyberbezpieczeństwa w walce z cyberzagrożeniami.
Co to jest DarkBERT?
DarkBERT to transformatorowy model enkodera oparty na architekturze RoBERTa. LLM został przeszkolony na milionach ciemnych stron internetowych, w tym danych z forów hakerskich, witryn oszukańczych i innych źródeł internetowych związanych z nielegalną działalnością.
Termin „ciemna sieć” odnosi się do ukrytej sekcji internetowej niedostępne za pośrednictwem standardowych przeglądarek internetowych. Podsekcja słynie z ukrywania anonimowych stron internetowych i rynków niesławnych z nielegalnych działań, takich jak handel skradzionymi danymi, narkotykami i bronią.
Aby wyszkolić DarkBERT, naukowcy zyskali dostęp do ciemnej sieci przez sieć Tor i zebrał surowe dane. Starannie przefiltrowali te dane przy użyciu technik takich jak deduplikacja, równoważenie kategorii i wstępne przetwarzanie stworzyć dopracowaną bazę danych ciemnej sieci, która została następnie przekazana do RoBERTa w ciągu około 15 dni w celu utworzenia DarkBERT.
Możliwe zastosowania DarkBERT w cyberbezpieczeństwie
DarkBERT doskonale rozumie język cyberprzestępców i doskonale wykrywa określone potencjalne zagrożenia. Może badać ciemną sieć oraz skutecznie identyfikować i oznaczać zagrożenia cyberbezpieczeństwa, takie jak wycieki danych i oprogramowanie ransomware, co czyni go potencjalnie użytecznym narzędziem do walki z cyberzagrożeniami.
Aby ocenić skuteczność DarkBERT, badacze porównali go z dwoma znanymi modelami NLP, BERT i RoBERTa, oceniając ich wydajność w trzech kluczowych przypadkach użycia związanych z cyberbezpieczeństwem, badania, Wysłany dnia arxiv.org, wskazuje.
1. Monitoruj fora Dark Web pod kątem potencjalnie szkodliwych wątków
Monitorowanie ciemnych forów internetowych, które są powszechnie wykorzystywane do wymiany nielegalnych informacji, ma kluczowe znaczenie dla identyfikacji potencjalnie niebezpiecznych wątków. Jednak ręczne przeglądanie ich może być czasochłonne, co sprawia, że automatyzacja procesu jest korzystna dla ekspertów ds. bezpieczeństwa.
Badacze skupili się na potencjalnie szkodliwych działaniach na forach hakerskich, opracowując wytyczne dotyczące adnotacji za godne uwagi wątki, w tym udostępnianie poufnych danych i dystrybucję krytycznego złośliwego oprogramowania lub luki w zabezpieczeniach.
DarkBERT przewyższył inne modele językowe pod względem precyzji, pamięci i wyniku F1, stając się lepszym wyborem do identyfikowania godnych uwagi wątków w ciemnej sieci.
2. Wykryj strony, które zawierają poufne informacje
Hakerzy i grupy ransomware wykorzystują ciemną sieć do tworzenia witryn wycieków, w których publikują poufne dane skradzione organizacjom, które odmawiają spełnienia żądań okupu. Inni cyberprzestępcy po prostu przesyłają ujawnione poufne dane, takie jak hasła i informacje finansowe, do ciemnej sieci z zamiarem ich sprzedaży.
W swoich badaniach naukowcy zebrali dane z znane grupy ransomware i przeanalizował witryny wycieków oprogramowania ransomware, które publikują prywatne dane organizacji. DarkBERT przewyższył inne modele językowe w identyfikowaniu i klasyfikowaniu takich stron, wykazując się zrozumieniem języka używanego na podziemnych forach hakerskich w ciemnej sieci.
DarkBERT wykorzystuje funkcję wypełnienia maski, nieodłączną cechę modeli językowych z rodziny BERT, do dokładnego identyfikowania słów kluczowych związanych z nielegalną działalnością, w tym sprzedażą narkotyków w ciemnej sieci.
Kiedy słowo „MDMA” było zamaskowane na stronie sprzedaży narkotyków, DarkBERT generował słowa związane z narkotykami, podczas gdy inne modele sugerowały ogólne słowa i terminy niezwiązane z narkotykami, takie jak różne zawody.
Zdolność DarkBERT do identyfikowania słów kluczowych związanych z nielegalną działalnością może być cenna w śledzeniu i rozwiązywaniu pojawiających się cyberzagrożeń.
Czy DarkBERT jest dostępny dla ogółu społeczeństwa?
DarkBERT jest obecnie niedostępny publicznie, ale badacze są otwarci na prośby o wykorzystanie go do celów akademickich.
Wykorzystaj moc sztucznej inteligencji do wykrywania zagrożeń i zapobiegania im
DarkBERT został wstępnie przeszkolony w zakresie danych z ciemnej sieci i przewyższa istniejące modele językowe w wielu przypadkach użycia cyberbezpieczeństwa, pozycjonując się jako kluczowe narzędzie do rozwoju badań nad ciemnymi sieciami.
Sztuczna inteligencja wyszkolona w ciemnej sieci może być wykorzystywana do różnych zadań związanych z cyberbezpieczeństwem, w tym do identyfikowania witryn sprzedających wycieki poufnych danych, monitorowanie ciemnych forów internetowych w celu wykrywania nielegalnego udostępniania informacji oraz identyfikowanie słów kluczowych związanych z cyberprzestrzenią groźby.
Ale zawsze powinieneś pamiętać, że podobnie jak inne LLM, DarkBERT jest w toku, a jego wydajność można poprawić poprzez ciągłe szkolenie i dostrajanie.