2024. április. 02. 17:03 Tech

15 mp-ig hallgat, utána bárki hangján megszólal az új MI, és persze bármit a szájába lehet adni

Lenyűgöző teljesítményt mutat az OpenAI új, mesterséges intelligencián alapuló hangklónozó eszköze. A Voice Engine aggályokat is felvet, annyira élethűen utánozza egy ember hangját.

Az OpenAI újdonsága egy olyan új modell, amely képes emberi hangon felolvasni szövegeket (sőt le is fordítja azokat). A Voice Engine nevű, 2022 óta fejlesztett modellnek ugyanis most már elég egyetlen 15 másodperces hangminta ahhoz, hogy természetes hangzású beszédet generáljon a mintát adó hangja alapján.

A szöveg-beszéd modell jelenleg korlátozott próbaidőszakban van néhány tesztelővel – a hozzáféréssel rendelkező vállalatok közé tartozik az Age of Learning oktatástechnológiai vállalat, a HeyGen vizuális történetmesélés platform, a Dimagi egészségügyiszoftver-gyártó, a Livox AI kommunikációs alkalmazásokat létrehozó és a Lifespan egészségügyi rendszer. Az OpenAI, a politikai döntéshozóktól és oktatóktól kapott visszajelzések után, inkább az óvatos megközelítést választotta a széles körű kiadás helyett, különösen olyan kényes időszakban, mint a mostani (amerikai és európai) választási év.

Hasonló megoldások persze régóta elérhetők, ám az OpenAI-féle Voice Engine azoknál sokkal élethűbb eredményt produkál. Ennek bizonyítékai meghallgathatók a vállalat oldalán közzétett demókban.

A Google tavaly olyan szolgáltatást mutatott be, amely 3 másodpercnyi mintából képes hanggenerálásra, szintén elég meggyőző, de azért egy picit gépi beszédnek hangzó eredménnyel.

3 mp-ig hallgatózik a Google mesterséges intelligenciája, aztán megszólal a beszélő hangján – de más nyelven
Valahol fantasztikus, valahol ijesztő a Google nyelvi modelljének azon képessége, hogy képes a beszélő hangján megszólaltatni egy hangzó szöveg fordítását. Érdemes meghallgatni, milyen eredménnyel dolgozik.

Az OpenAI néhány korai felhasználási példát is említ a Voice Engine alkalmazására. Segítséget nyújthat például az olvasásban az olvasni nem tudóknak, köztük a gyerekeknek a természetesnek ható hangokon keresztül, amelyek a beszélők sokkal szélesebb körét képviselhetik, mint ami az előre beállított hangokkal lehetséges. A modell emellett segíthet tartalmak, például videók és podcastok fordításában, hogy az alkotók a saját hangjukon minél többeket érhessenek el a világon, akár a hallgatók anyanyelvén (erre egyébként már a Spotify is felfigyelt). Terápiás alkalmazások is elképzelhetők olyan személyek számára, akiknek az állapota befolyásolja a beszédet és speciális tanulási igényeik vannak. Emellett az új rendszer segíthet a degeneratív beszédbetegségben szenvedőknek a hangjuk visszanyerésében.

Az OpenAI persze azzal is tisztában van, hogy az emberi hangra emlékeztető beszéd generálása komoly kockázatokkal jár, ezért is mondtak le a széles körű bevezetésről. A vállalat partnerei állítólag megállapodtak abban, hogy nem fogják használni a Voice Engine-t mások megszemélyesítésére a beleegyezésük nélkül. Ez azt is megköveteli, hogy a partnerek megkapják az eredeti beszélő „kifejezett és tájékozott beleegyezését”, ne építsenek módokat az egyes felhasználók számára saját hangjuk létrehozására, és közöljék a hallgatókkal, hogy a hangokat mesterséges intelligencia generálja. Az OpenAI „audiovízjelet” is hozzáadott a hangklipekhez, hogy nyomon lehessen követni azok eredetét.

Ha máskor is tudni szeretne hasonló dolgokról, lájkolja a HVG Tech rovatának Facebook-oldalát.

A címlapról ajánljuk

„Egy igazi paranoid, hülye, tipikus magyar szituáció” – belháború tört ki a legendás Fészek Klubban

"Szentkirályi programja kifér egy söralátétre" – a Vitézy-interjú legerősebb mondatai

Vitézy Dávid: Amivel én foglalkozom, az a 90 százaléka a főpolgármester teendőinek

Tarlós István: Vitézy a mai napig sértődött ember

Tarlós saját elmondása szerint már 2012-ben háttérbe akarta szorítani Vitézyt, de nem orosz nyomásra.

190 milliárdos veszteséget ért el az MVM Csoport

A csoport állami támogatása 1002 milliárd forint volt, közel kétszerese az egy évvel korábbinak.

Nagy lépést tett Tiborcz az agrárbáróság felé, és ebben állami tízmilliárdok is segíthetik

Medián: Még közelebb került Magyar Péter pártja a Fideszhez

A szavazatok negyedét begyűjtené az EP-választáson, de még nem fedte fel minden kártyáját Magyar Péter

Magyar Péter: Ha elindul a fővárosban, a Tisza Párt nélkül a Fidesz és a DK sem tud majd többséget szerezni

Az orvosi lakásba beköltöző bácsszőlősi polgármester állítja, azért zavarta el bazmegolva Hadházy Ákost, mert vécére kellett rohannia

Osztrák elemző: Hibás a visegrádi országok gazdaságpolitikája

Konkurenciája is követi az Ubert Budapestre

A Gett a Taxim társasággal közösen, előbbi márkanév alatt indulhat Magyarországon néhány héten belül az Index szerint.

Elutasította a fegyverszüneti feltételeket a Hamász

Szeretne azonnal értesülni a legfontosabb hírekről?

Az értesítések bekapcsolásához kattintson a "Kérem" gombra!

Köszönjük, hogy feliratkozott!

Hoppá!

Már feliratkozott!

A böngészőjében az értesítés funkció le van tiltva!

Olvasási mód:

Betűméret:

Betűstílus:

Üdvözöljük a HVG.hu-n! A lenti gombra kattintva megismerheti megújult oldalunkat!

15 mp-ig hallgat, utána bárki hangján megszólal az új MI, és persze bármit a szájába lehet adni

3 mp-ig hallgatózik a Google mesterséges intelligenciája, aztán megszólal a beszélő hangján – de más nyelven

Egyetlen kattintással csinál a semmiből 16 másodpercnyi videót – ezt tudja a kínai újdonság

Bajban lehet, aki bedőlt ennek az átverésnek – milliók adatait lopták el

Lopás és pereskedés helyett kezd kiegyezni az újságokkal a ChatGPT fejlesztője

Megtanult magyarul a Microsoft Office egyik legjobb funkciója

Rászólt az EU az Apple-re, 6 hónap múlva változás jön

Sokaknál senki által nem értett kizárásokba kezdett az Apple