Hlasu se již nedá věřit. Podvržení je snadné, „ochranou“ je vada řeči

Jednm z mediln nejpropranjch startup produkujcch uml generovn a klonovn hlasu pomoc systmu uml inteligence je americk startup ElevenLabs. Jednak proto, e se dky obm investicm mnoha spolenost stal jednorocem, tedy firmou, jej hodnota se raketov dostala pes metu jedn miliardy dolar, a jednak proto, e podle expert prv jeho nstroje a algoritmy stoj za falenmi telefonty americkho prezidenta Joea Bidena.

Akoli si nkdo me autory tchto podvrench hlas pedstavovat jako ajky v mikinch s kapuc, kte se hrb ped monitory s ubhajcmi dky programovho kdu v zelen barv, reln prce s potebnmi nstroji je mnohem mn romantick.

Vyzkoueli jsme to prv s nstroji od ElevenLabs. Stailo si vytvoit et, vybrat vhodn balek pedplatnho, zaplatit a pak u se oteve elegantn webovho rozhran, jeho prostednictv mte ke vem nstrojm pstup.

Dnes si ukeme jen jednu z funkc naklonujeme ciz hlas a nechme ho pest text, kter nikdy neekl.

Sta krtk nahrvka

Prvn, co je poteba udlat, je vytvoit hlasov profil. K tomu slou jednoduch formul, kde vyplnte jmno a nahrajete nejmn jeden, nejvc dvacet pt zvukovch vzork, z nich kad me mt a 10 MB. Audio by mlo mt aspo minutu. Samozejm, pokud nahrajete dl vzorek, vsledek bude pesnj.

Systm mus dostat nahrvku pouze s jednm hlasem, kter chcete naklonovat, proto pokud chcete systm uit teba z rozhovoru, je poteba ho naped sesthat my k tomu spn pouvme bezplatn Audacity. Kvli pkrmu limitu ve velikosti souboru, kter systm od ElevenLabs akceptuje, jsme vzorky komprimovali do formtu MP3.

ElevenLabs

Spolenost zaloili v roce 2022 Piotr Dbkowski, bval inenr strojovho uen spolenosti Google, a Mateusz Staniszewski, plnova nasazovn software ve spolenosti Palantir. Oba vyrostli v Polsku a inspirac pro zaloen ElevenLabs jim dajn bylo sledovn nepoveden dabovanch americkch film.

zdroj: Wikipedia

Soust dialogovho okna, ve kterm tvote hlasov profil, je monost vloit identifikan ttky a popis hlasu. Dialog je v anglitin a tak jsme to dodrovali. Nakonec muste estn prohlsit, e mte prva k uit hlasu a e vsledek nepouijete k njakm nekalostem. Tm je profil pipraven a mete ho kdykoli pout ke generovn podvrenho hlasovho projevu.

My jsme takto vytvoili hlasov profil kolegy Vladimra Vokla, jeho hlas znte napklad z poadu Rozstel, natench historickch knih vychzejcch v rmci Podcast iDNES.cz nebo zprv Rdia Impuls. Model jsme natrnovali na sedmiminutovm vzorku naten knihy a asi tech minutch ivho rozhlasovho rozhovoru.

Hlas umlho Vladimra

U zvolenho hlasovho profilu s nam stednm pedplatnm Creator za dvacet dva dolar msn si jich meme uloit a ticet sta kliknout na Use (pout) a do pipravenho okna zkoprovat pipraven text (text to speech). Mete tak nahrt zvukov soubor s mluvenm slovem, kter systm namluv znovu zvolenm hlasem (speech to speech).

Formul pro vytvoen podvrenho hlasovho zznamu

V sekci nastaven si mete pohrt s parametry vytven hlasu, ideln je na kratm vzorku textu vyzkouet vc nastaven a cel text (limit je pt tisc znak na jeden vsledn zvukov soubor) nast a s vhodnm nastavenm. Kad balek pedplatnho m toti msn limit na poet znak (u balku Creator je uvedeno sto tisc, reln jsme jich dostali minimln o ticet tisc vc), tak je dobr nepltvat.

Nastaven hlasov syntzy

Je mon si vybrat z nkolika AI model, nicmn etina je pouze v Multilingual V2, take v tomto ppad je volba nejsp jednoduch.

Vbr jazykovch model

A pak u sta kliknout na Generate. Po nkolika destkch sekund se spust pehrvn ji namluven sti, kter postupn pibv nkdy se reprodukce na chvilku zastav, jindy to systm stihne odbavit rovnou pro poslech. Kadopdn je vygenerovn zvukov verze textu otzkou destek sekund a jednotek minut odbavuje se na serverech spolenosti, evidentn maj zatm dostatek voln kapacity.

Vladimr dopadl (skoro) vborn, ale

Jak dopadlo namluven textu hlasem Vladimra Vokla generovanm nstroji od ElevenLabs, se mete pesvdit sami v vodnm lnkovm videu. Je v nm pro srovnn i kus skuten natenho textu vatek z jednoho ze vzork, kter jsme pouili pro trnovn.

Zamnit vygenerovan hlas za skuten Vladimrv projev by bylo docela snadn. Varovnm by mohly bt snad jen ne vdy dobe trefen pauzy na ndechy, ppadn kladen drazu tam, kam nepat. Ale kolik lid takov detaily prat do ucha ve chvli, kdy o kvalit projevu nepemlej?

Ne vdy se ale dlo podailo. Ukzalo se, e trnovan hlas profesionlnho modertora je pro klonovn pomoc AI ideln. Nen v nm toti mnoho chyb a fonetickch nedokonalost a navc je nahrn ve vysok zvukov kvalit. Zejmna z druhho dvodu jsme ponkud narazili s npadem nechat hlasem prvnho eskoslovenskho prezidenta Tome Garrigua Masaryka pest novoron projev souasnho prezidenta Petra Pavla. V jaks taks kvalit jsme nali jen pln minimum dobovch nahrvek a na vsledku to bylo znt. Ostatn, poslechnte si sami.

Nepesvdiv dopadl pokus o stejnou realizaci, tentokrt ale s hlasem prvnho prezidenta esk republiky Vclava Havla. Jeho charakteristick rkovn se AI model nenauil a pro Havla specifick dynamika a kladen draz se do vsledku taky nedostaly. Vsledek ml sice podrobnou barvu, ale e nejde o zznam skutenho projevu, bylo docela zejm.

Nstroje od ElevenLabs um i dal triky, napklad vytvoen vlastnho hlasovho avatara pomoc mnohem preciznjho ucho procesu. Ale to si vyzkoume pt.