Grok 4, najnowszy duży model językowy opracowany przez xAI, firmę Elona Muska, został poddany serii testów porównawczych. Wyniki? Mieszane. Choć AI zyskała lepsze zdolności rozumowania, to nadal kuleje tam, gdzie wymagana jest szybka adaptacja do zmieniających się warunków.
Co to jest Grok 4?
Grok 4 to najnowsza iteracja modelu AI stworzonego przez X.AI, zaprojektowana do przetwarzania języka naturalnego z naciskiem na rozumienie kontekstu i wyciąganie wniosków. W porównaniu do poprzedników, Grok 4 ma bardziej zaawansowane mechanizmy logicznego rozumowania i potencjał do radzenia sobie z bardziej skomplikowanymi zadaniami. Tak przynajmniej mówiły zapowiedzi przed oficjalną premierą LLM.
Jak Grok wypadł w testach?
Najnowszy test „Multi‑Agent Step Race Benchmark” – oparty na łamigłówkach NYT Connections – sprawdza zdolność modeli do działania w warunkach stresu i złożonych, zmiennych reguł gry. Tutaj Grok 4 uplasował się dopiero na 5. miejscu z rezultatem TrueSkill 7,9. Tam Grok 4 wypadł słabiej niż GPT-4 i Claude Opus, a nawet niektóre starsze modele. AI świetnie radzi sobie z „zamrożonymi” zadaniami, ale gubi elastyczność, gdy gra się dynamicznie.

Do tego eksperci sugerują, że xAI mogło „przetrenować” model pod benchmarki statyczne – efektem może być brak generalizacji w zadaniach, których nie da się rozwiązać przez prostą reprodukcję danych. To przypomina klasyczne overfitting – działa świetnie na testach, gorzej w realnych scenariuszach.
Ale nie wszystko wygląda źle. W testach logicznego myślenia i rozumowania, Grok 4 pokazał wyraźny progres względem poprzednich wersji. Model lepiej rozumie dłuższe ciągi przyczynowo-skutkowe, radzi sobie z wnioskowaniem opartym na wielu źródłach informacji, a także poprawnie odpowiada na pytania wymagające „trzymania kontekstu” na przestrzeni dłuższych konwersacji. To może sugerować, że zespół xAI zaczął inwestować więcej zasobów w głębsze rozumienie języka niż tylko powierzchowne generowanie odpowiedzi. Do tego Grok 4 całkiem dobrze wypada w testach kodowania precyzyjnego. To sygnał dla developerów, narzędzia oparte na takich modelach mogą szybciej stać się realną pomocą w codziennych zadaniach.
Dla środowisk IT czy firm rozważających wdrożenie LLM-ów do przetwarzania dokumentów, analiz biznesowych czy wsparcia klienta, Grok 4 może być wartościową alternatywą. Jednak raczej nie tam, gdzie wymagana jest szybka adaptacja i strategiczne myślenie, jak np. w automatyzacji decyzji w czasie rzeczywistym.
Warto też pamiętać, że Grok 4 to nadal model młodszy niż GPT-4 od OpenAI czy Claude 3 od Anthropic. Do tego pamiętajmy, że architektura i dane treningowe modelu od xAI nie zostały do końca ujawnione, co utrudnia pełną ocenę.

