České nakladatelství Témbr zkouší natáčet audioknihy pomocí umělé inteligence. Na základě vzorků reálných hlasů načítají text hlasové klony. Pilotním počinem je Svět levného dopaminu. Motivační kniha se stala první vícehlasnou audioknihou v Česku načtenou AI.

Nakladatelství Témbr se pod hlavičkou Euromedia Group zaměřuje na produkci audioknih od roku 2020. Jeho počiny se opakovaně objevily v nominacích na Audioknihu roku, cenu si odnesl thriller Zvedá se vítr. Herec Jiří Vyorálek se za načtení kriminálního příběhu Kateřiny Surmanové stal interpretem roku 2023. Je možné, že takové ocenění bude v budoucnu patřit umělé inteligenci.

Novinkou nakladatelství je totiž zapojení AI do nahrávání audioknih. Děje se tak ve spolupráci se studiem Fameplay, které se zaměřuje na tvorbu s využitím generativní AI, včetně digitálních dvojníků. Pro audioknihy se v tomto studiu odebírají vzorky reálných hlasů, z nichž technologie vytvoří klon.

„Ten hlas má mělký intonační rozsah, protože jsme nahrávali jen pár minut. Kdybychom tu byli déle a udělali třeba hodinu nahrávky, tak hlas bude vhodný i pro namlouvání třeba audioknihy,“ vysvětluje při ukázce pro televizní reportáž hlavní producent Fameplay Lukáš Záhoř.

Touto cestou vznikla audiokniha Svět levného dopaminu – první vícehlasná audiokniha v Česku kompletně načtená umělou inteligencí. Pilotní projekt nakladatelství Témbr bylo možné realizovat díky souhlasu autorů Jiřího Kryštofa Jarmara a Vojtěcha Hlaváčka. Autoři motivační knihy známí z podcastu Brain We Are poskytli také své hlasy, díky kterým umělá inteligence více než sedmihodinovou audioknihu vytvořila. 

Šetří čas i lidi

Oba jsou přesvědčení, že kvalita posluchačského zážitku tím nijak neutrpí a oni získali spoustu času na přípravu a zkoumání nových témat, uvádí Euromedia Group. „Nejsou školení herečtí profesionálové a zároveň jsou časově velmi vytíženi. Proto se využití AI vzhledem k ušetřenému času nabízelo. To, co oni museli pro potřeby umělé inteligence načíst a namluvit, trvalo nějaké tři hodiny. Herci nad tím stráví ve studiu více než dvacet hodin,“ vysvětlil vedoucí marketingu nakladatelství Euromedia Ondřej Beniš.

To, co kdysi dělali s celým týmem, nyní tvůrci audioknih nahrazují umělou inteligencí. Lidé mají při takové práci nicméně stále místo, AI kontrolují nebo s ní přímo pracují.

„Naše mise spočívá v tom, abychom tu laťku posunuli výše. Hlas je v audiovizi stěžejní linkou všeho. To, jak je nahrávka namluvená, určuje její úspěch. Takže místo toho, abych říkal instrukce herci, který sedí u mikrofonu nebo stojí na place, necháme umělou inteligenci vygenerovat výsledky nahrávek, mezi kterými si potom vybíráme ty nejlepší,“ upřesnil režisér nahrávky Lukáš Záhoř.

Vedoucí marketingu Beniš ujišťuje, že nakladatelství nehodlá zcela z tvorby vynechat interprety a tvůrce z masa a kostí. „AI pro nás není něco, co může člověka nahradit, ale je to nástroj, který může tu práci rozhodně zefektivnit,“ říká. Schopnosti umělé inteligence se stále rozšiřují, člověk zůstává tím, kdo zadává instrukce. „Aby třeba ten hlas konkrétní věci zašeptal nebo vykřikl,“ uvádí konkrétní příklad Záhoř.

Slovensko začalo knihou o značce

Vzorek hlasu studio Fameplay převádí také do různých jazyků. Správnou intonaci a výslovnost kontrolují rodilí mluvčí.

Fameplay se podíleli rovněž na nahrávání první slovenské audioknihy kompletně namluvené umělou inteligencí. Žlutá kniha budování značky vyšla v červnu a ani v tomto případě nejde o beletrii. Autora, jímž je podnikatel, investor a marketér Michal Pastier, zastoupil klonovaný hlas. I jeho motivací, proč svůj text nenačetl sám, bylo přesvědčení, že profesionální klon to zvládne lépe než on s neškoleným hlasem, navíc mu takové řešení ušetří hodiny hlasového tréninku. 

Posmrtný klon Karla Gotta

V tuzemské literární branži není Svět levného dopaminu první snahou o zapojení AI do tvorby audioknih. Před dvěma lety vydal Supraphon audioverzi autobiografické knihy Karla Gotta Má cesta za štěstím, v níž některé pasáže načetl sám autor – zpěvákův hlas čtyři roky po jeho smrti oživili vědci z katedry kybernetiky Západočeské univerzity. Data jim poskytl rozhlasový archiv. Hlas vytvořený AI doplnil herec Igor Bareš.

„Aby byl počítačový hlas plnohodnotným partnerem člověka v hlasovém dialogu, nestačí jen přečíst daný text. Syntéza musí také dokonale porozumět tématu konverzace, umět vyjádřit postoj mluvčího, náladu, emoce, mít paměť… Takové úlohy na řešení teprve čekají,“ řekl tehdy vedoucí týmu Jindřich Matoušek.

Ještě před vydáním kompletních pamětí coby audionahrávky nabídl kapitoly načtené „dvojníkem“ Karla Gotta Český rozhlas. Projekt Gott navždy se stal nejposlouchanější četbou na pokračování v historii této stanice. Zpětně zaznamenal více než milion poslechů.

Bylo to poprvé v Česku, kdy se do literárně dramatického díla zapojil hlas vytvořený generativní AI a před jeho odvysíláním si ČRo nechal vypracovat rozsáhlou právní analýzu. Po skončení projektu byl Gottův hlasový otisk z bezpečnostních důvodů smazán ze serverů a uložen v chráněném off-line režimu. 

Zástupci Asociace vydavatelů audioknih se po vydání Mé cesty za štěstím dohodli, že audioknihy členů asociace, které vzniknou s použitím umělé inteligence, budou jednoznačně označeny. A zvukový obsah pomocí umělé inteligence může být vytvořen pouze se souhlasem autorů.

Virtuální hlas pro autory

Umělá inteligence ovlivňuje podobu audioknižní nabídky pochopitelně i v zahraničí. Šíření audioknih namluvených syntetickým hlasem napomohla nezávislým autorům i streamovací platforma Spotify, když letos uzavřela spolupráci s progresivní společností v oblasti AI generování hlasu ElevenLabs. Zdůvodnila to tím, že „uznává potenciál digitálního hlasového vyprávění pro růst a rozšíření trhu s audioknihami“. Distribuce audioknih nahraných umělou inteligencí ale byly povoleny na Spotify už předtím, na základě konkrétních spoluprací a podmínek.

Také americká online služba Audible, dceřiná společnost Amazonu pro audioknihy, od loňska umožňuje autorům, kteří ve Spojených státech vydávají své knihy vlastním nákladem, aby své dílo nechali namluvit „virtuálním hlasem“. Takových titulů už vzniklo přes šedesát tisíc.

V polovině letošního roku navíc Audible představila plány, jak hodlá využívat AI k napravování dysbalance, kdy jen zlomek z vydávaných knih je dostupný ve zvukovém formátu. Vyvinula nástroj, od něhož si slibuje, že zpřístupní posluchačům více audio verzí papírových knih, a navíc v jimi preferovaném jazyce. A značce zajistí co největší podíl na audioknižním byznysu.

Překlad pro čtenáře v zahraničí

Po nezávislých autorech tak oslovuje i vydavatele, přičemž jim nabízí zajištění veškeré produkce související s načtením a zveřejním audioknih nahraných pomocí AI, případně poskytnutí technologie. K mání je výběr z více než stovky hlasů generovaných umělou inteligencí v angličtině, ale také ve španělštině, francouzštině a italštině, navíc různých přízvuků a dialektů.

Soustředění se na jazykovou rozmanitost, přinášející rozšiřování globálního publika, je podstatnou součástí cíle této platformy. Během letošního roku proto Audible zavádí beta verze překladů audioknih z angličtiny do jiných jazyků. Kromě tří už zmíněných doplňuje testovací nabídku ještě němčina.

Audible navrhuje, že zájemcům kromě samotné technologie „dodá“ profesionálního překladatele pro kontrolu i odborníky na audioknihy, kteří vydavatelům pomohou vytipovat z jejich nabídky ty nejvhodnější tituly pro uši zahraničních čtenářů.

„Levnou náhražkou spálíme planetu a nazveme to pokrokem“

Proti takovéto expanzi syntetických hlasů se ozvali někteří spisovatelé, překladatelé i interpreti audioknih. V kritických ohlasech, z nichž cituje britský list The Guardian, se mluví o důležitosti „krátkozratkosti“, s níž Audible „redukuje to, co na vyprávění příběhů milujeme, na pouhé předávání kódu“, byť výsledný hlas zní jakkoliv přesvědčivě lidsky.

Zazněly i o obavy z devalvace překladů, jelikož AI konkurent se spíše spokojí s „průměrným výsledkem“ a ve finále na něj přistoupí i vydavatelé. Nikdo totiž „nepředstírá, že používá AI, protože překlady, audioknihy, nebo dokonce psaní knih je lepší“, ale protože jejich produkce vyjde levněji.

Překladatel Frank Wynne přitom upozorňuje na nezanedbatelnou položku v podobě energetické náročnosti pro výkony AI. „Při hledání levné náhražky skutečného člověka jsme připraveni spálit planetu a nazvat to pokrokem,“ prohlásil v britském deníku.

Stejně jako při využívání AI při psaní knih, ale i natáčení filmů či nahrávání hudby, zaznívají v souvislosti s audioknihami požadavky na transparentnost při používání umělé inteligence. A to jak pro spotřebitele, tak pro autory a další tvůrce, jejichž práce by neměla bez jejich vědomí sloužit k trénování nástrojů generativní AI. 

Alternativa, když „nesedne“ interpret

Uživatele může nicméně AI hlas pomoci u poslechu udržet. Švédská služba pro audioknihy a e-knihy Storytel loni uvedla, že až devadesát procent posluchačů audioknihu odložilo ne proto, že by se jim nelíbila, ale protože jim nesedl hlas či způsob, jakým interpret dílo namluvil. Storytel proto začal dávat uživatelům na výběr, jestli si chtějí poslechnout lidského, nebo syntetického vypravěče.

Takzvaný Voice Switcher u určitých beletristických titulů ve švédštině doplňuje původní člověkem namluvené vyprávění třemi alternativami vytvořenými pomocí AI na základě skutečných hlasů. Na výběr jsou tak mužské i ženské hlasy, dramatičtější či neutrálnější podání, jak každému podle jeho vkusu vyhovuje. Technologii pro tento „přepínač“ vyvinul Storytel ve spolupráci s ElevenLabs. Zkušební verzi otestoval ještě předtím na Polácích. 

Podíl.