A videó az OmniHuman nevű legújabb AI deepfake- és lipsync-technológiát mutatja be, amelyet a ByteDance fejlesztett ki. Az OmniHuman képes bármilyen képet élethűen animálni, akár beszéd-, akár énekhanganyag alapján, sőt teljes testanimációkat is generál.
A bemutató során a videó készítője különböző képeken és hanganyagokon teszteli az OmniHuman képességeit: kipróbálja fotókon, embereken, állatokon, valamint rajzolt és anime karaktereken is. Ellenőrzi, mennyire reálisak a mimikák, a mozgások, a testbeszéd, és hogy mennyire képes az eszköz az érzelmek közvetítésére.
Néhány példán keresztül feltárja az eszköz korlátait is, például azt, hogy nem minden esetben képes több szereplős képeken jól dolgozni, vagy hogy állatok esetében kevésbé látványos az animáció. Szóba kerül az énekhang szinkronizálása, valamint a nyelvi sokszínűség is: a rendszer több nyelvet is felismer és támogat.
A videóban összehasonlításra kerül az OmniHuman mellett a Seaweed nevű, szintén AI-alapú videógenerátor, amelyet különféle bonyolult szituációkban tesztelnek, például harcjelenetek, táncok vagy híres emberek szimulációja során. Az összevetésből kiderül, hogy az egyes modellek különböző erősségekkel és hiányosságokkal rendelkeznek.
A nézőket a szerző arra buzdítja, hogy próbálják ki a platformot, valamint osszák meg tapasztalataikat azzal kapcsolatban, hogy szerintük mennyire veszélyes vagy ígéretes ezeknek a deepfake-technológiáknak a fejlődése.