ChatGPT atjauninājums ļauj tā AI “redzēt, dzirdēt un runāt”, saskaņā ar OpenAI
Pirmdien OpenAI paziņoja par nozīmīgu ChatGPT atjauninājumu, kas ļauj tā GPT-3.5 un GPT-4 AI modeļiem analizēt attēlus un reaģēt uz tiem kā daļu no teksta sarunas. Tāpat ChatGPT mobilā lietotne pievienos runas sintēzes opcijas, kas, savienojot tās ar esošajām runas atpazīšanas funkcijām, ļaus pilnībā verbālas sarunas ar AI palīgu, saka OpenAI.
OpenAI plāno ieviest šīs ChatGPT funkcijas Plus un Enterprise abonentiem “nākamo divu nedēļu laikā”. Tajā arī norādīts, ka runas sintēze ir pieejama tikai iOS un Android ierīcēm, un attēlu atpazīšana būs pieejama gan tīmekļa saskarnē, gan mobilās lietotnes.
OpenAI saka, ka jaunā attēlu atpazīšanas funkcija pakalpojumā ChatGPT ļauj lietotājiem augšupielādēt vienu vai vairākus attēlus sarunai, izmantojot GPT-3.5 vai GPT-4 modeļus. Savā reklāmas emuāra ierakstā uzņēmums apgalvo, ka šo funkciju var izmantot dažādām ikdienas vajadzībām: no vakariņu izdomāšanas, fotografējot ledusskapi un pieliekamo, līdz problēmu novēršanai, kāpēc jūsu grils neieslēdzas. Tajā arī teikts, ka lietotāji var izmantot savas ierīces skārienekrānu, lai apvilktu attēla daļas, uz kurām viņi vēlas koncentrēties ChatGPT.
Savā vietnē OpenAI piedāvā reklāmas video , kas ilustrē hipotētisku apmaiņu ar ChatGPT, kurā lietotājs jautā, kā pacelt velosipēda sēdekli, nodrošinot fotoattēlus, kā arī instrukciju rokasgrāmatu un lietotāja rīku komplekta attēlu. ChatGPT reaģē un konsultē lietotāju, kā pabeigt procesu. Mēs paši neesam pārbaudījuši šo funkciju, tāpēc tās efektivitāte reālajā pasaulē nav zināma.
Tātad, kā tas darbojas? OpenAI nav izlaidusi tehnisko informāciju par to, kā GPT-4 vai tā multimodālā versija GPT-4V darbojas zem pārsega, taču, pamatojoties uz zināmiem citu (tostarp OpenAI partnera Microsoft ) veiktajiem AI pētījumiem , multimodālie AI modeļi parasti pārveido tekstu un attēlus koplietojamo kodēšanas telpu, kas ļauj apstrādāt dažāda veida datus, izmantojot vienu un to pašu neironu tīklu. OpenAI var izmantot CLIP , lai pārvarētu plaisu starp vizuālajiem un teksta datiem tādā veidā, kas izlīdzina attēlu un teksta attēlojumus tajā pašā latentā telpā , kas ir sava veida vektorizēts datu attiecību tīkls. Šis paņēmiens varētu ļaut ChatGPT veikt kontekstuālus atskaitījumus no teksta un attēliem, lai gan tas ir spekulatīvs no mūsu puses.
Tikmēr audio zemē ChatGPT jaunā balss sintēzes funkcija ļauj runāt turp un atpakaļ ar ChatGPT, ko veicina tas, ko OpenAI sauc par “jaunu teksta pārvēršanas runā modeli”, lai gan teksta pārveide runā ir atrisināta. ilgu laiku. Kad funkcija būs pieejama, uzņēmums saka, ka lietotāji var izmantot šo funkciju, lietotnes iestatījumos izvēloties balss sarunas un pēc tam izvēloties no piecām dažādām sintētiskām balsīm ar nosaukumiem, piemēram, “Juniper”, “Sky”, “Cove”, “Ember”. ,”un “Breeze”.OpenAI saka, ka šīs balsis ir izstrādātas sadarbībā ar profesionāliem balss aktieriem.
OpenAI Whisper, atvērtā koda runas atpazīšanas sistēma, kuru mēs apskatījām pagājušā gada septembrī, turpinās apstrādāt lietotāja runas ievades transkripciju. Whisper ir integrēts ar ChatGPT iOS lietotni kopš tās palaišanas maijā. OpenAI jūlijā izlaida līdzīgi spējīgu Android lietotni ChatGPT .
Atbildēt