reklama

Grok 4, najnowszy duży model językowy opracowany przez xAI, firmę Elona Muska, został poddany serii testów porównawczych. Wyniki? Mieszane. Choć AI zyskała lepsze zdolności rozumowania, to nadal kuleje tam, gdzie wymagana jest szybka adaptacja do zmieniających się warunków.

Co to jest Grok 4?

Grok 4 to najnowsza iteracja modelu AI stworzonego przez X.AI, zaprojektowana do przetwarzania języka naturalnego z naciskiem na rozumienie kontekstu i wyciąganie wniosków. W porównaniu do poprzedników, Grok 4 ma bardziej zaawansowane mechanizmy logicznego rozumowania i potencjał do radzenia sobie z bardziej skomplikowanymi zadaniami. Tak przynajmniej mówiły zapowiedzi przed oficjalną premierą LLM.

Jak Grok wypadł w testach?

Najnowszy test „Multi‑Agent Step Race Benchmark” – oparty na łamigłówkach NYT Connections – sprawdza zdolność modeli do działania w warunkach stresu i złożonych, zmiennych reguł gry. Tutaj Grok 4 uplasował się dopiero na 5. miejscu z rezultatem TrueSkill 7,9. Tam Grok 4 wypadł słabiej niż GPT-4 i Claude Opus, a nawet niektóre starsze modele. AI świetnie radzi sobie z „zamrożonymi” zadaniami, ale gubi elastyczność, gdy gra się dynamicznie.

reklama
fot. Twitter Lech Mazur

Do tego eksperci sugerują, że xAI mogło „przetrenować” model pod benchmarki statyczne – efektem może być brak generalizacji w zadaniach, których nie da się rozwiązać przez prostą reprodukcję danych. To przypomina klasyczne overfitting – działa świetnie na testach, gorzej w realnych scenariuszach.

Ale nie wszystko wygląda źle. W testach logicznego myślenia i rozumowania, Grok 4 pokazał wyraźny progres względem poprzednich wersji. Model lepiej rozumie dłuższe ciągi przyczynowo-skutkowe, radzi sobie z wnioskowaniem opartym na wielu źródłach informacji, a także poprawnie odpowiada na pytania wymagające „trzymania kontekstu” na przestrzeni dłuższych konwersacji. To może sugerować, że zespół xAI zaczął inwestować więcej zasobów w głębsze rozumienie języka niż tylko powierzchowne generowanie odpowiedzi. Do tego Grok 4 całkiem dobrze wypada w testach kodowania precyzyjnego. To sygnał dla developerów, narzędzia oparte na takich modelach mogą szybciej stać się realną pomocą w codziennych zadaniach.

https://twitter.com/tetsuoai/status/1944529720684716126

Dla środowisk IT czy firm rozważających wdrożenie LLM-ów do przetwarzania dokumentów, analiz biznesowych czy wsparcia klienta, Grok 4 może być wartościową alternatywą. Jednak raczej nie tam, gdzie wymagana jest szybka adaptacja i strategiczne myślenie, jak np. w automatyzacji decyzji w czasie rzeczywistym.

Warto też pamiętać, że Grok 4 to nadal model młodszy niż GPT-4 od OpenAI czy Claude 3 od Anthropic. Do tego pamiętajmy, że architektura i dane treningowe modelu od xAI nie zostały do końca ujawnione, co utrudnia pełną ocenę.

Share.

Cześć! W redakcji 3D-Info będę odpowiadał za większość testów podzespołów komputerowych m.in: procesorów, płyt głównych, kart graficznych, ale także urządzeń sieciowych. Możecie spodziewać się również licznych tekstów okołosprzętowych, omówień bieżących wydarzeń i premier, rankingów czy porównań. Z góry przepraszam za mocno techniczny język. Jestem typowym geekiem komputerowym, który uwielbia zagłębiać się w szczegółach budowy podzespołów. Uwielbiam spędzać godziny na testach, a okno 3DMarka znam już chyba na pamięć. Lubię też wyszukiwać promocje na te najważniejsze i najdroższe komponenty komputerowe. I choć nie mam wieloletniego doświadczenia dziennikarskiego, mam nadzieję, że 3D-info to kolejny etap mojego rozwoju zawodowego.   Swoją przygodę z dziennikarstwem zaczynałem na 3D-Info niemal 10 lat temu. Jednak wtedy nie był to portal technologiczny, a bardziej blog teamu overclokingowego. Nasze wpisy skupiały się na raportowaniu naszych osiągnięć, czy podsumowania zawodów, w których braliśmy udział. Niestety, nie przetrwaliśmy próby czasu, a ekipa rozeszła się do „normalnej” pracy. Sam przez lata pracowałem w kilku sklepach ze sprzętem RTV i AGD. Mój powrót do dziennikarstwa nastąpił w 2019 roku, w sumie to z przypadku, na łamach portalu PCWorld.pl. Zaczynałem skromnie od pojedynczych testów pamięci RAM czy dysków. To opór Piotrka Opulskiego, naszego wydawcy spowodował, że zdecydowałem się w 2021 całkowicie zmienić swoją drogę kariery zawodowej i zostałem redaktorem na stałe.   Nie będzie raczej niespodzianką, jak powiem, że mimo upływu lat moje zamiłowanie do podkręcania nie ustąpiło. Obecnie pomału wracam do świata ekstremalnego overclockingu, by jeszcze bardziej poszerzyć swoją wiedzę technologiczną. Idealne popołudnie dla mnie to dewar pełen ciekłego azotu i odpalone na komputerze liczne benchmarki.

Exit mobile version