Univerzalni prevodilac je upravo napustio domene naučne fantastike i uselio se u vaš pametni telefon. Kompanija OpenAI lansirala je tri nova audio modela u okviru svog Realtime API-ja, što predstavlja ogroman iskorak za svakoga ko razvija ili koristi aplikacije zasnovane na glasu.
Novi trio: GPT-Realtime-2, GPT-Realtime-Translate i GPT-Realtime-Whisper pomera granice glasovne veštačke inteligencije sa prostih odgovora ka sistemima koji vas razumeju, preduzimaju akcije i prate tempo prirodnog razgovora bez zastoja.
„Mozak“ koji priča dok radi
Glavna zvezda ove objave je GPT-Realtime-2. Ovaj model donosi sposobnost razmišljanja na nivou GPT-5 modela direktno u glasovne interakcije. To znači da AI sada može da obrađuje kompleksne zahteve bez gubljenja niti razgovora.
Ono što ga izdvaja je sposobnost da istovremeno pokreće više alata i da vam u hodu narira šta radi, koristeći fraze poput „samo da proverim vaš kalendar“ ili „pogledaću to odmah“. Sa prozorom konteksta od 128K tokena, sesije mogu biti duže i koherentnije nego ikada pre, a programeri mogu čak i da podešavaju nivo „razmišljanja“ modela u zavisnosti od težine zadatka.
Univerzalni prevodilac iz Star Trek-a je postao stvaran
Verovatno najimpresivniji deo ove objave je GPT-Realtime-Translate. Ovaj model podržava prevođenje govora uživo za više od 70 ulaznih jezika i 13 izlaznih jezika.
Tokom demonstracije smo videli nešto što je do juče bilo nezamislivo, kada se u razgovor uključi nova osoba koja govori potpuno drugačiji jezik, sistem bez ikakvih problema prevodi oba govornika u realnom vremenu. Ovo je najbliže što smo ikada prišli konceptu univerzalnog prevodioca iz popularnih SF serijala.
Transkripcija bez sekunde čekanja
Treći član porodice, GPT-Realtime-Whisper, rešava jedan od najvećih problema dosadašnjih rešenja, čekanje. Većina modela za pretvaranje govora u tekst čeka da govornik završi rečenicu pre nego što je ispiše. Realtime-Whisper koristi striming tehnologiju i pretvara govor u tekst dok korisnik još uvek priča. Ovo je idealno za titlove uživo, beleške sa sastanaka ili bilo koji proces gde je brzina ključna.
Ko će ovo moći da koristi?
OpenAI je ove modele trenutno pustio programerima, ali ćemo efekte videti vrlo brzo kroz aplikacije koje koristimo svaki dan. Neki giganti već testiraju tehnologiju:
- Zillow pravi glasovnog asistenta koji može da pretražuje kuće i zakazuje termine samo na osnovu glasovnog upita.
- Priceline će vam omogućiti da glasom proverite letove, otkažete hotele i rezervišete nove.
- Vimeo već implementira transkripciju u realnom vremenu.
Cene se kreću od 0,017 dolara po minutu za Whisper, 0,034 dolara za Translate, dok GPT-Realtime-2 košta 32 dolara po milionu audio tokena. Iako su ovo cene za programere, jasno je da se sprema revolucija u tome kako ćemo komunicirati sa mašinama, ali i jedni sa drugima.




