Czy zastanawiałeś się, jak można jeszcze szybciej korzystać z dużych modeli językowych, takich jak GPT czy Llama, nie tracąc jakości generowanych odpowiedzi? Naukowcy z Intel Labs i Instytutu Nauk Weizmanna właśnie znaleźli odpowiedź. Na konferencji ICML zaprezentowali uniwersalną metodę – speculatywny decoding, która może znacząco przyspieszyć działanie AI.
Czym jest speculative decoding?
To technika przyspieszająca wnioskowanie AI, bez obniżania jakości generowanych odpowiedzi. Jak działa? Para modeli, mały, szybki i duży, precyzyjny, współpracuje. Mały model generuje szybką „wersję roboczą” odpowiedzi, a duży ją weryfikuje. Efekt? Znacznie mniejsze zużycie zasobów i szybsze wyniki.
„Rozwaliliśmy główną barierę wydajności generatywnej AI” – podkreśla Oren Pereg z Intela. „To nie teoria. To praktyczne narzędzia, już dziś pomagające tworzyć szybsze i inteligentniejsze aplikacje”.
reklama
Jak to działa i dlaczego to rewolucja?
Do tej pory, gdy zadawałeś pytanie modelowi AI, np. „Jaka jest stolica Francji…”, ten generował odpowiedź słowo po słowie: „Paryż”, „to”, „słynne”, „miasto”…. Każdy krok wymagał sporej mocy obliczeniowej.
Dekodowanie spekulatywne wprowadza tu genialną optymalizację, tworząc „zespół” składający się z dwóch modeli.
- Mały, szybki model „asystent” błyskawicznie szkicuje całą odpowiedź, np. „Paryż to słynne miasto…”
- Duży, precyzyjny model „ekspert” zamiast tworzyć wszystko od zera, jedynie weryfikuje gotowy szkic w jednym kroku.

To dramatycznie skraca czas i zasoby potrzebne na wygenerowanie odpowiedzi. Prawdziwy przełom polega jednak na czymś innym. Dotychczasowe metody tego typu miały poważne ograniczenie: oba modele musiały pochodzić z jednej „rodziny” lub dzielić to samo słownictwo. Naukowcy z Intela i Instytutu Weizmanna całkowicie usunęli tę barierę. Opracowali trzy nowe algorytmy, które pozwalają na współpracę dowolnego małego modelu z dowolnym dużym modelem, niezależnie od ich pochodzenia czy różnic w słownictwie. Co więcej, całość jest już dostępna open source, w popularnej bibliotece Hugging Face Transformers, bez potrzeby pisania własnego kodu.

