
Duża aktualizacja dla użytkowników Chat-GPT
Chat-GPT z kolejnym krokiem w kierunku naturalnej interakcji między człowiekiem a komputerem, rozszerzając swoje dotychczasowe funkcje.
GPT-4o, gdzie litera „o” oznacza „omni”, to model sztucznej inteligencji, który zbliża nas do bardziej naturalnej komunikacji z maszynami. Model jest w stanie przyjmować dowolne kombinacje tekstu, dźwięku, obrazu i wideo jako dane wejściowe, a generować może tekst, dźwięk oraz obrazy jako wyjście. Co więcej, potrafi reagować na polecenia głosowe w czasie tak krótkim jak 232 milisekundy, co jest porównywalne z ludzkim czasem reakcji w rozmowie.
Pod względem wydajności w języku angielskim i w kodowaniu, GPT-4o dorównuje modelowi GPT-4 Turbo. Jednak wyróżnia się znaczącą poprawą w obsłudze tekstu w innych językach, jednocześnie będąc szybszym i tańszym w użyciu o 50% w interfejsie API. Szczególnie imponujące są jego zdolności w zakresie rozumienia wizji i dźwięku, które przewyższają możliwości wcześniejszych modeli.
Ewolucja interakcji głosowej
Przed wprowadzeniem GPT-4o, funkcja rozmowy głosowej w ChatGPT działała z opóźnieniami wynoszącymi średnio 2,8 sekundy dla modelu GPT-3.5 i 5,4 sekundy dla GPT-4. Było to możliwe dzięki zastosowaniu trzech oddzielnych modeli: jednego do transkrypcji mowy na tekst, drugiego (GPT-3.5 lub GPT-4) do przetwarzania tekstu oraz trzeciego do konwersji tekstu na mowę. Taki proces powodował jednak utratę wielu istotnych informacji, takich jak ton głosu, różnica między mówcami czy dźwięki tła. Ponadto, modele te nie były w stanie generować emocji, śmiechu czy śpiewu.
GPT-4o został zaprojektowany jako jednolity model trenowany end-to-end, co oznacza, że wszystkie dane wejściowe i wyjściowe są przetwarzane przez tę samą sieć neuronową. Dzięki temu możliwe jest zachowanie pełnego kontekstu i bogactwa informacji podczas interakcji z użytkownikiem. Jako pierwszy model łączący tekst, wizję i dźwięk, otwiera nowe możliwości w zakresie komunikacji z maszynami.
Wydajność i zdolności GPT-4o
Według standardowych testów, GPT-4o osiąga poziom wydajności porównywalny z GPT-4 Turbo w zakresie przetwarzania tekstu, rozumowania i kodowania. Jednocześnie ustanawia nowe standardy w obsłudze wielu języków, dźwięku i wizji. Model ten radzi sobie znacznie lepiej w przetwarzaniu i generowaniu treści w różnych językach, co czyni go bardziej uniwersalnym narzędziem.
Przykładowo, w językach takich jak gudżarati, telugu czy tamilski, liczba tokenów potrzebnych do przetworzenia tekstu została znacząco zmniejszona. W języku gudżarati redukcja wyniosła 4,4 razy, co przekłada się na bardziej efektywne i szybsze przetwarzanie. Nawet w językach o mniejszej redukcji, takich jak angielski czy francuski, odnotowano poprawę wydajności.
Bezpieczeństwo i ograniczenia modelu
W GPT-4o zaimplementowano mechanizmy bezpieczeństwa we wszystkich modalnościach. Dzięki filtrowaniu danych treningowych i dostosowywaniu zachowań modelu po treningu, zapewniono odpowiedni poziom ochrony przed potencjalnymi nadużyciami. Wprowadzono również nowe systemy bezpieczeństwa kontrolujące wyjścia głosowe.
Model został poddany ocenie zgodnie z Ramą Przygotowania oraz dobrowolnymi zobowiązaniami w zakresie odpowiedzialnego rozwoju sztucznej inteligencji. W kategoriach takich jak cyberbezpieczeństwo, zagrożenia chemiczne czy perswazja, GPT-4o nie przekroczył średniego poziomu ryzyka. Przeprowadzono szereg testów automatycznych i manualnych podczas procesu treningowego, aby upewnić się, że model działa zgodnie z oczekiwaniami.
Dodatkowo, ponad 70 zewnętrznych ekspertów z dziedzin takich jak psychologia społeczna, sprawiedliwość czy dezinformacja uczestniczyło w testowaniu modelu. Ich zadaniem było zidentyfikowanie potencjalnych ryzyk związanych z nowo dodanymi funkcjonalnościami. Na podstawie ich uwag wprowadzono dodatkowe zabezpieczenia, które mają na celu zwiększenie bezpieczeństwa interakcji z GPT-4o.
Dostępność i przyszłość GPT-4o
GPT-4o jest ważnym krokiem w rozwoju uczenia głębokiego, skupiającym się na praktycznej użyteczności. Przez ostatnie dwa lata dokonano licznych usprawnień w zakresie efektywności na różnych poziomach technologicznych. Dzięki temu możliwe jest udostępnienie modelu o możliwościach GPT-4 szerszej grupie użytkowników.
Funkcje związane z tekstem i obrazami są już dostępne w ChatGPT. Model jest oferowany w bezpłatnej wersji, a użytkownicy wersji Plus otrzymują zwiększone limity wiadomości. Planowane jest również wprowadzenie nowej wersji trybu głosowego z GPT-4o w najbliższych tygodniach.
Deweloperzy mogą korzystać z GPT-4o poprzez interfejs API jako modelu tekstowego i wizualnego. Nowy model jest dwa razy szybszy, o połowę tańszy i oferuje pięciokrotnie wyższe limity w porównaniu z GPT-4 Turbo. W najbliższym czasie planowane jest udostępnienie funkcji audio i wideo wybranej grupie zaufanych partnerów.
GPT-4o reprezentuje istotny postęp w dziedzinie sztucznej inteligencji, łącząc różne formy danych w jednym modelu. Dzięki temu komunikacja między ludźmi a komputerami staje się bardziej naturalna i intuicyjna. Model ten nie tylko dorównuje swoim poprzednikom w zakresie przetwarzania tekstu i kodowania, ale także przewyższa je w rozumieniu obrazów i dźwięku.
Jego zdolność do efektywnego przetwarzania treści w wielu językach czyni go narzędziem o globalnym zasięgu. Wprowadzenie GPT-4o otwiera nowe możliwości w różnych dziedzinach, od edukacji po biznes, przyczyniając się do dalszego rozwoju interakcji człowieka z technologią.
Szymon Ślubowski