Stačí jedna fotografie a umělá inteligence ji rozezpívá, třeba Monu Lisu

Projekt Sora od spolenosti Google ukzal, e generativn uml inteligence doke na zklad jednoduchho textovho zadn vygenerovat pomrn realistickou filmovou scnu. Jednm z prvnch vtvor tohoto systmu byla i asijsk dvka prochzejc se po mst, kter se tak stala symbolem tto generativn AI.

Nyn tento produkt uml inteligence vzali odbornci z Institutu pro inteligentn IT, kter provozuje Alibaba Group, a nauili ji povdat a zpvat. Sora, jak dvku pezdvme, ale nebyla jedin, na kter si vyzkoueli schopnosti svho difznho modelu, kter nazvali EMO. Zkratka vychz z nzvu Emote Portrait Alive, co je jejich systm pro generovn portrtnch vide pomoc difznho modelu.

Difzn modely

Trnink difznch model se provd tak, e se do obrzk pidv um, kter se nsledn u model odstraovat. Pi generovn obrzk model vyuv tento proces obnovy, a vytv tak realistick obrazy z pvodnho umu.

Zdroj: AI dtem

Vdci z institutu uvd, e sta poskytnout fotografii a zvukov soubor a EMO nsledn doke generovat AI videa, kde mohou lid mluvit a zpvat.

Nae metoda doke generovat hlasov videa s expresivnmi vrazy oblieje a rznmi polohami hlavy a zrove doke generovat videa s libovolnou dlkou trvn v zvislosti na dlce vstupnho videa, vysvtluj autoi.

Jak je na piloenm videu vidt, vrazy jsou velmi dvryhodn.

Cel proces je podle jeho tvrc nastaven tak, aby se v prvn fzi extrahovaly rysy z pedloenho snmku, a vsledek je pak pouit k vytvoen srie rozpohybovanch snmk. Druhou je fze difznho procesu, kdy pedem natrnovan zvukov kodr zpracovv zvukov vloky.

Jak to cel probh, popisuj tvrci v tomto obrzku:

Popis postupu generovn videa ze zdrojovho snmku a zvukov stopy.