reklama

Czy zastanawiałeś się, jak można jeszcze szybciej korzystać z dużych modeli językowych, takich jak GPT czy Llama, nie tracąc jakości generowanych odpowiedzi? Naukowcy z Intel Labs i Instytutu Nauk Weizmanna właśnie znaleźli odpowiedź. Na konferencji ICML zaprezentowali uniwersalną metodę – speculatywny decoding, która może znacząco przyspieszyć działanie AI.

Czym jest speculative decoding?

To technika przyspieszająca wnioskowanie AI, bez obniżania jakości generowanych odpowiedzi. Jak działa? Para modeli, mały, szybki i duży, precyzyjny, współpracuje. Mały model generuje szybką „wersję roboczą” odpowiedzi, a duży ją weryfikuje. Efekt? Znacznie mniejsze zużycie zasobów i szybsze wyniki.

„Rozwaliliśmy główną barierę wydajności generatywnej AI” – podkreśla Oren Pereg z Intela. „To nie teoria. To praktyczne narzędzia, już dziś pomagające tworzyć szybsze i inteligentniejsze aplikacje”.

reklama

Jak to działa i dlaczego to rewolucja?

Do tej pory, gdy zadawałeś pytanie modelowi AI, np. „Jaka jest stolica Francji…”, ten generował odpowiedź słowo po słowie: „Paryż”, „to”, „słynne”, „miasto”…. Każdy krok wymagał sporej mocy obliczeniowej.

Dekodowanie spekulatywne wprowadza tu genialną optymalizację, tworząc „zespół” składający się z dwóch modeli.

  • Mały, szybki model „asystent” błyskawicznie szkicuje całą odpowiedź, np. „Paryż to słynne miasto…”
  • Duży, precyzyjny model „ekspert” zamiast tworzyć wszystko od zera, jedynie weryfikuje gotowy szkic w jednym kroku.
Moshe Berchansky, Daniel Korat, Oren Pereg, and Moshe Wasserblat / Intel Labs

To dramatycznie skraca czas i zasoby potrzebne na wygenerowanie odpowiedzi. Prawdziwy przełom polega jednak na czymś innym. Dotychczasowe metody tego typu miały poważne ograniczenie: oba modele musiały pochodzić z jednej „rodziny” lub dzielić to samo słownictwo. Naukowcy z Intela i Instytutu Weizmanna całkowicie usunęli tę barierę. Opracowali trzy nowe algorytmy, które pozwalają na współpracę dowolnego małego modelu z dowolnym dużym modelem, niezależnie od ich pochodzenia czy różnic w słownictwie. Co więcej, całość jest już dostępna open source, w popularnej bibliotece Hugging Face Transformers, bez potrzeby pisania własnego kodu.

Share.

Cześć! W redakcji 3D-Info będę odpowiadał za większość testów podzespołów komputerowych m.in: procesorów, płyt głównych, kart graficznych, ale także urządzeń sieciowych. Możecie spodziewać się również licznych tekstów okołosprzętowych, omówień bieżących wydarzeń i premier, rankingów czy porównań. Z góry przepraszam za mocno techniczny język. Jestem typowym geekiem komputerowym, który uwielbia zagłębiać się w szczegółach budowy podzespołów. Uwielbiam spędzać godziny na testach, a okno 3DMarka znam już chyba na pamięć. Lubię też wyszukiwać promocje na te najważniejsze i najdroższe komponenty komputerowe. I choć nie mam wieloletniego doświadczenia dziennikarskiego, mam nadzieję, że 3D-info to kolejny etap mojego rozwoju zawodowego.   Swoją przygodę z dziennikarstwem zaczynałem na 3D-Info niemal 10 lat temu. Jednak wtedy nie był to portal technologiczny, a bardziej blog teamu overclokingowego. Nasze wpisy skupiały się na raportowaniu naszych osiągnięć, czy podsumowania zawodów, w których braliśmy udział. Niestety, nie przetrwaliśmy próby czasu, a ekipa rozeszła się do „normalnej” pracy. Sam przez lata pracowałem w kilku sklepach ze sprzętem RTV i AGD. Mój powrót do dziennikarstwa nastąpił w 2019 roku, w sumie to z przypadku, na łamach portalu PCWorld.pl. Zaczynałem skromnie od pojedynczych testów pamięci RAM czy dysków. To opór Piotrka Opulskiego, naszego wydawcy spowodował, że zdecydowałem się w 2021 całkowicie zmienić swoją drogę kariery zawodowej i zostałem redaktorem na stałe.   Nie będzie raczej niespodzianką, jak powiem, że mimo upływu lat moje zamiłowanie do podkręcania nie ustąpiło. Obecnie pomału wracam do świata ekstremalnego overclockingu, by jeszcze bardziej poszerzyć swoją wiedzę technologiczną. Idealne popołudnie dla mnie to dewar pełen ciekłego azotu i odpalone na komputerze liczne benchmarki.

Exit mobile version