szerző:
hvg.hu
Tetszett a cikk?

Lenyűgöző teljesítményt mutat az OpenAI új, mesterséges intelligencián alapuló hangklónozó eszköze. A Voice Engine aggályokat is felvet, annyira élethűen utánozza egy ember hangját.

Az OpenAI újdonsága egy olyan új modell, amely képes emberi hangon felolvasni szövegeket (sőt le is fordítja azokat). A Voice Engine nevű, 2022 óta fejlesztett modellnek ugyanis most már elég egyetlen 15 másodperces hangminta ahhoz, hogy természetes hangzású beszédet generáljon a mintát adó hangja alapján.

A szöveg-beszéd modell jelenleg korlátozott próbaidőszakban van néhány tesztelővel – a hozzáféréssel rendelkező vállalatok közé tartozik az Age of Learning oktatástechnológiai vállalat, a HeyGen vizuális történetmesélés platform, a Dimagi egészségügyiszoftver-gyártó, a Livox AI kommunikációs alkalmazásokat létrehozó és a Lifespan egészségügyi rendszer. Az OpenAI, a politikai döntéshozóktól és oktatóktól kapott visszajelzések után, inkább az óvatos megközelítést választotta a széles körű kiadás helyett, különösen olyan kényes időszakban, mint a mostani (amerikai és európai) választási év.

Hasonló megoldások persze régóta elérhetők, ám az OpenAI-féle Voice Engine azoknál sokkal élethűbb eredményt produkál. Ennek bizonyítékai meghallgathatók a vállalat oldalán közzétett demókban.

A Google tavaly olyan szolgáltatást mutatott be, amely 3 másodpercnyi mintából képes hanggenerálásra, szintén elég meggyőző, de azért egy picit gépi beszédnek hangzó eredménnyel.

3 mp-ig hallgatózik a Google mesterséges intelligenciája, aztán megszólal a beszélő hangján – de más nyelven

Valahol fantasztikus, valahol ijesztő a Google nyelvi modelljének azon képessége, hogy képes a beszélő hangján megszólaltatni egy hangzó szöveg fordítását. Érdemes meghallgatni, milyen eredménnyel dolgozik.

Az OpenAI néhány korai felhasználási példát is említ a Voice Engine alkalmazására. Segítséget nyújthat például az olvasásban az olvasni nem tudóknak, köztük a gyerekeknek a természetesnek ható hangokon keresztül, amelyek a beszélők sokkal szélesebb körét képviselhetik, mint ami az előre beállított hangokkal lehetséges. A modell emellett segíthet tartalmak, például videók és podcastok fordításában, hogy az alkotók a saját hangjukon minél többeket érhessenek el a világon, akár a hallgatók anyanyelvén (erre egyébként már a Spotify is felfigyelt). Terápiás alkalmazások is elképzelhetők olyan személyek számára, akiknek az állapota befolyásolja a beszédet és speciális tanulási igényeik vannak. Emellett az új rendszer segíthet a degeneratív beszédbetegségben szenvedőknek a hangjuk visszanyerésében.

Az OpenAI persze azzal is tisztában van, hogy az emberi hangra emlékeztető beszéd generálása komoly kockázatokkal jár, ezért is mondtak le a széles körű bevezetésről. A vállalat partnerei állítólag megállapodtak abban, hogy nem fogják használni a Voice Engine-t mások megszemélyesítésére a beleegyezésük nélkül. Ez azt is megköveteli, hogy a partnerek megkapják az eredeti beszélő „kifejezett és tájékozott beleegyezését”, ne építsenek módokat az egyes felhasználók számára saját hangjuk létrehozására, és közöljék a hallgatókkal, hogy a hangokat mesterséges intelligencia generálja. Az OpenAI „audiovízjelet” is hozzáadott a hangklipekhez, hogy nyomon lehessen követni azok eredetét.

Ha máskor is tudni szeretne hasonló dolgokról, lájkolja a HVG Tech rovatának Facebook-oldalát.