Intel Labs i Weizmann Institute prezentują przełomową metodę przyspieszenia sztucznej inteligencji

reklama

Czy zastanawiałeś się, jak można jeszcze szybciej korzystać z dużych modeli językowych, takich jak GPT czy Llama, nie tracąc jakości generowanych odpowiedzi? Naukowcy z Intel Labs i Instytutu Nauk Weizmanna właśnie znaleźli odpowiedź. Na konferencji ICML zaprezentowali uniwersalną metodę – speculatywny decoding, która może znacząco przyspieszyć działanie AI.

Czym jest speculative decoding?

To technika przyspieszająca wnioskowanie AI, bez obniżania jakości generowanych odpowiedzi. Jak działa? Para modeli, mały, szybki i duży, precyzyjny, współpracuje. Mały model generuje szybką „wersję roboczą” odpowiedzi, a duży ją weryfikuje. Efekt? Znacznie mniejsze zużycie zasobów i szybsze wyniki.

„Rozwaliliśmy główną barierę wydajności generatywnej AI” – podkreśla Oren Pereg z Intela. „To nie teoria. To praktyczne narzędzia, już dziś pomagające tworzyć szybsze i inteligentniejsze aplikacje”.
reklama

Jak to działa i dlaczego to rewolucja?

Do tej pory, gdy zadawałeś pytanie modelowi AI, np. „Jaka jest stolica Francji…”, ten generował odpowiedź słowo po słowie: „Paryż”, „to”, „słynne”, „miasto”…. Każdy krok wymagał sporej mocy obliczeniowej.

Dekodowanie spekulatywne wprowadza tu genialną optymalizację, tworząc „zespół” składający się z dwóch modeli.

Mały, szybki model „asystent” błyskawicznie szkicuje całą odpowiedź, np. „Paryż to słynne miasto…”
Duży, precyzyjny model „ekspert” zamiast tworzyć wszystko od zera, jedynie weryfikuje gotowy szkic w jednym kroku.

Moshe Berchansky, Daniel Korat, Oren Pereg, and Moshe Wasserblat / Intel Labs

To dramatycznie skraca czas i zasoby potrzebne na wygenerowanie odpowiedzi. Prawdziwy przełom polega jednak na czymś innym. Dotychczasowe metody tego typu miały poważne ograniczenie: oba modele musiały pochodzić z jednej „rodziny” lub dzielić to samo słownictwo. Naukowcy z Intela i Instytutu Weizmanna całkowicie usunęli tę barierę. Opracowali trzy nowe algorytmy, które pozwalają na współpracę dowolnego małego modelu z dowolnym dużym modelem, niezależnie od ich pochodzenia czy różnic w słownictwie. Co więcej, całość jest już dostępna open source, w popularnej bibliotece Hugging Face Transformers, bez potrzeby pisania własnego kodu.

Co nowego

Intel Labs i Weizmann Institute prezentują przełomową metodę przyspieszenia sztucznej inteligencji

Czym jest speculative decoding?

Jak to działa i dlaczego to rewolucja?

Podobne