reklama

Nvidia prezentuje Rubin CPX – wyspecjalizowany akcelerator AI, który ma wprowadzić nowy standard w obsłudze dużych modeli AI. Kluczem do zmian jest odejście od kosztownej pamięci HBM na rzecz nowej generacji GDDR7, znacznie tańszej i bardziej energooszczędnej.

Do tej pory serwerowe GPU Nvidii uchodziły za złoty standard, ogromna wydajność, pamięć HBM3E, zaawansowane interkonekty i dopracowany ekosystem CUDA. Problem w tym, że wraz ze wzrostem popularności modeli LLM, takich jak GPT-5 czy Gemini 2, centra danych zaczynają mierzyć się z nieefektywnością kosztową. Flagowe akceleratory świetnie radzą sobie z generowaniem kolejnych tokenów, ale podczas fazy kontekstowej, gdy model musi „przeżuć” miliony tokenów wejściowych, okazują się przewymiarowane i zbyt drogie w eksploatacji.

Tu wchodzi Rubin CPX (Content Phase aXcelerator). Nowy układ został zaprojektowany wyłącznie z myślą o obsłudze długich kontekstów wejściowych, czyli etapu, w którym LLM analizuje obszerne dokumenty, kody źródłowe czy dane multimedialne. CPX ma do dyspozycji aż 128 GB pamięci GDDR7, zamiast kosztownej HBM, co pozwala znacząco obniżyć cenę i zużycie energii. GDDR7, mimo niższej przepustowości, zapewnia wystarczającą wydajność, a przy tym jest prostsza w produkcji, nie wymaga drogich technologii pakowania (np. CoWoS) i eliminuje część wąskich gardeł w dostawach.

reklama

Nowa architektura NVIDII to tak zwany model rozdzielony. Układ Rubin R100 odpowiada za fazę generacji (wydajne HBM i ogromna przepustowość), a Rubin CPX, za fazę kontekstową. Oprogramowanie Dynamo automatycznie przydzieli obciążenia do odpowiedniego układu, co w praktyce ma oznaczać niższy całkowity koszt posiadania (TCO) i efektywniejsze wykorzystanie zasobów w hiperskalowych centrach danych.

Nvidia szacuje, że inwestycja w platformę CPX może zwrócić się operatorom kilkudziesięciokrotnie – przy nakładach rzędu 100 mln dolarów potencjalne przychody z usług inference mogą sięgnąć nawet 5 mld. Dla rynku AI to jasny sygnał: nie tylko moc obliczeniowa, ale i ekonomia infrastruktury staje się kluczowa w nadchodzących latach.

Share.

Cześć! W redakcji 3D-Info będę odpowiadał za większość testów podzespołów komputerowych m.in: procesorów, płyt głównych, kart graficznych, ale także urządzeń sieciowych. Możecie spodziewać się również licznych tekstów okołosprzętowych, omówień bieżących wydarzeń i premier, rankingów czy porównań. Z góry przepraszam za mocno techniczny język. Jestem typowym geekiem komputerowym, który uwielbia zagłębiać się w szczegółach budowy podzespołów. Uwielbiam spędzać godziny na testach, a okno 3DMarka znam już chyba na pamięć. Lubię też wyszukiwać promocje na te najważniejsze i najdroższe komponenty komputerowe. I choć nie mam wieloletniego doświadczenia dziennikarskiego, mam nadzieję, że 3D-info to kolejny etap mojego rozwoju zawodowego.   Swoją przygodę z dziennikarstwem zaczynałem na 3D-Info niemal 10 lat temu. Jednak wtedy nie był to portal technologiczny, a bardziej blog teamu overclokingowego. Nasze wpisy skupiały się na raportowaniu naszych osiągnięć, czy podsumowania zawodów, w których braliśmy udział. Niestety, nie przetrwaliśmy próby czasu, a ekipa rozeszła się do „normalnej” pracy. Sam przez lata pracowałem w kilku sklepach ze sprzętem RTV i AGD. Mój powrót do dziennikarstwa nastąpił w 2019 roku, w sumie to z przypadku, na łamach portalu PCWorld.pl. Zaczynałem skromnie od pojedynczych testów pamięci RAM czy dysków. To opór Piotrka Opulskiego, naszego wydawcy spowodował, że zdecydowałem się w 2021 całkowicie zmienić swoją drogę kariery zawodowej i zostałem redaktorem na stałe.   Nie będzie raczej niespodzianką, jak powiem, że mimo upływu lat moje zamiłowanie do podkręcania nie ustąpiło. Obecnie pomału wracam do świata ekstremalnego overclockingu, by jeszcze bardziej poszerzyć swoją wiedzę technologiczną. Idealne popołudnie dla mnie to dewar pełen ciekłego azotu i odpalone na komputerze liczne benchmarki.

Exit mobile version