reklama

OpenAI intensyfikuje prace nad nowym modelem sztucznej inteligencji wyspecjalizowanym w mowie i przetwarzaniu dźwięku. Jak wynika z doniesień branżowych, firma rozwija rozwiązanie, które ma oferować bardziej naturalną, kontekstową i płynną interakcję głosową niż dotychczasowe systemy typu speech-to-text i text-to-speech .

To kolejny sygnał, że OpenAI postrzega audio jako kluczowy interfejs przyszłości, a nie jedynie dodatek do modeli tekstowych. Trend ten wpisuje się w szerszy ruch w Dolinie Krzemowej, gdzie coraz częściej mówi się o „wojnie z ekranami” i przesuwaniu interakcji z AI w stronę głosu, konwersacji i urządzeń ubieralnych.

Od narzędzia do rozmowy, nie tylko do rozpoznawania mowy

Według dostępnych informacji, nowy model OpenAI ma wykraczać poza klasyczne rozpoznawanie mowy. Celem jest stworzenie systemu, który rozumie intencję, kontekst i emocje, a jednocześnie potrafi generować mowę w sposób zbliżony do naturalnej rozmowy człowieka. OpenAI już dziś udostępnia w API generację i analizę audio, umożliwiając deweloperom tworzenie zaawansowanych agentów głosowych o określonym stylu i tonie wypowiedzi.

reklama

W praktyce oznacza to, że warstwa audio przestaje być „nakładką” na model językowy, a staje się jego integralną częścią. To istotna różnica względem starszych architektur, w których mowa była jedynie wejściem lub wyjściem, a nie pełnoprawnym kanałem interakcji.

Połączenie z bazą ChatGPT zmienia zasady gry

Najciekawszy aspekt tej strategii pojawia się w momencie, gdy spojrzymy na nią w szerszym kontekście ekosystemu OpenAI. Połączenie nowego modelu audio z bazą wiedzy i zdolnościami reasoningowymi ChatGPT może stworzyć asystenta, który nie tylko odpowiada na proste komendy, ale prowadzi złożoną rozmowę, pamięta kontekst, analizuje dane i wykonuje wieloetapowe zadania.

Dla firm takich jak Amazon (Alexa), Google (Assistant) i Apple (Siri), ruch OpenAI jest sygnałem alarmowym. Obecni asystenci głosowi to w dużej mierze systemy command-and-control. W dużej mierze opierają się na sztywnych intencjach, scenariuszach i integracjach zewnętrznych. ą świetni w wykonywaniu prostych poleceń („włącz światło”, „ustaw minutnik”), ale wykładają się na próbie zrozumienia kontekstu czy złożonych zapytań. Model oparty na dużym LLM + natywne audio może być znacznie bardziej elastyczny i trudniejszy do zastąpienia w codziennych oraz biznesowych zastosowaniach.

Połączenie potężnej bazy wiedzy i zdolności rozumowania modelu klasy GPT-5 z doskonałym interfejsem audio stworzyłoby „Super-Asystenta”. Taki system nie tylko włączyłby muzykę, ale potrafiłby streścić spotkanie, doradzić w zakupach, czy poprowadzić naukę języka w czasie rzeczywistym. Jeśli OpenAI udostępni ten model poprzez API lub wbuduje go we własny hardware (o czym plotkuje się w kontekście współpracy z Jony Ive’m), miliony urządzeń Echo i Nest mogą nagle wydać się użytkownikom „głuche” i ograniczone.

Wyścig o czas

Google i Amazon oczywiście nie śpią. Obie firmy pracują nad integracją swoich modeli LLM (odpowiednio Gemini i nowej Alexy opartej na Anthropic/własnych modelach) ze swoimi asystentami. Jednak OpenAI ma obecnie przewagę „czystej karty”. Nie musi martwić się o kompatybilność wsteczną z milionami urządzeń smart home, co pozwala im na szybsze wdrażanie radykalnych innowacji.

Wiele wskazuje na to, że rok 2026 będzie rokiem, w którym przestaniemy do komputerów pisać, a zaczniemy z nimi po prostu rozmawiać. Pytanie tylko, czy będzie to rozmowa z Alexą, czy z głosem wybranym przez Sama Altmana.

Share.

Cześć! W redakcji 3D-Info będę odpowiadał za większość testów podzespołów komputerowych m.in: procesorów, płyt głównych, kart graficznych, ale także urządzeń sieciowych. Możecie spodziewać się również licznych tekstów okołosprzętowych, omówień bieżących wydarzeń i premier, rankingów czy porównań. Z góry przepraszam za mocno techniczny język. Jestem typowym geekiem komputerowym, który uwielbia zagłębiać się w szczegółach budowy podzespołów. Uwielbiam spędzać godziny na testach, a okno 3DMarka znam już chyba na pamięć. Lubię też wyszukiwać promocje na te najważniejsze i najdroższe komponenty komputerowe. I choć nie mam wieloletniego doświadczenia dziennikarskiego, mam nadzieję, że 3D-info to kolejny etap mojego rozwoju zawodowego.   Swoją przygodę z dziennikarstwem zaczynałem na 3D-Info niemal 10 lat temu. Jednak wtedy nie był to portal technologiczny, a bardziej blog teamu overclokingowego. Nasze wpisy skupiały się na raportowaniu naszych osiągnięć, czy podsumowania zawodów, w których braliśmy udział. Niestety, nie przetrwaliśmy próby czasu, a ekipa rozeszła się do „normalnej” pracy. Sam przez lata pracowałem w kilku sklepach ze sprzętem RTV i AGD. Mój powrót do dziennikarstwa nastąpił w 2019 roku, w sumie to z przypadku, na łamach portalu PCWorld.pl. Zaczynałem skromnie od pojedynczych testów pamięci RAM czy dysków. To opór Piotrka Opulskiego, naszego wydawcy spowodował, że zdecydowałem się w 2021 całkowicie zmienić swoją drogę kariery zawodowej i zostałem redaktorem na stałe.   Nie będzie raczej niespodzianką, jak powiem, że mimo upływu lat moje zamiłowanie do podkręcania nie ustąpiło. Obecnie pomału wracam do świata ekstremalnego overclockingu, by jeszcze bardziej poszerzyć swoją wiedzę technologiczną. Idealne popołudnie dla mnie to dewar pełen ciekłego azotu i odpalone na komputerze liczne benchmarki.

Exit mobile version