Směrem k interaktivnímu, robustnímu a stereoskopickému přenosu výtvarného stylu / Towards Interactive, Robust, and Stereoscopic Style Transfer
- Authors
- Publication Date
- Apr 18, 2024
- Source
- Digital Library of the Czech Technical University in Prague
- Keywords
- License
- Unknown
Abstract
Výzkum v oblastí automatické přenosu výtvarného stylu se těší rostoucí popularitě od svého zrodu na počátku 21. století. Oceňují jej zejména výtvarníci a animátoři, kterým významným způsobem pomáhá snížit objem repetitivní ruční práce. Na základě jedné ručně kreslené či generované předlohy dokáží efektivně stylizovat řadu dalších obrazů či celé videosekvence. I přes velký pokrok v této oblasti, existuje stále řada problémů, jež brání většímu rozšíření metod pro přenosu výtvarného stylu. Hlavní potíží jsou poměrně vysoké nároky na výpočetní výkon, jež omezují možnost interaktivní práce v reálném čase. Často navíc dochází k významnému úbytku kvality v případech, kdy se předloha a cílové snímky významně liší. Je také obtížné dosáhnout časové koherence a v neposlední řadě není zřejmé, jakým způsobem provádět přenos stylu v případě, kdy se očekává stereoskopické zobrazení.V této disertační práci nejprve nastíníme současný stav poznání na poli přenosu výtvarného stylu a na jeho základě navrhneme sadu několika nových postupů, které se pokusí překonat výše zmíněná omezení. Konkrétně představíme: (1) metodu založenou na použití neuronové sítě, která umožní stylizovat vstupní video lidské tváře v reálném čase s využitím trénovací sady dat generované pomocí výpočetně náročnějšího postupu, (2) tuto metodu dále zobecníme pro případ libovolné videosekvence, pro kterou existuje jen velmi omezená sada trénovacích dat. Představíme také (3) efektivní aproximaci výpočetně náročnějšího algoritmu pro stylizaci lidských tváří, která umožní provést stylizaci v reálném čase i na méně výkonných zařízeních a (4) metodu pro přenos výtvarného stylu na videosekvence, která významným způsobem zvýší kvalitu výstupu v případech, kdy se snímek na vstupu výrazně liší od klíčového snímku. V závěru popíšeme (5) metodu pro konzistentní přenos výtvarného stylu do stereoskopické videosekvence.Na základě předložených výsledků srovnání s předchozími přístupy lze konstatovat, že tato práce posunuje současný stav poznání v několika aspektech zkoumané problematiky, ať už se jedná o zvýšením kvality stylizované sekvence, dosažení interaktivní odezvy při stylizaci v reálném čase nebo zajištění konzistence ve stereoskopickém scénáři. / Since its inception in the early 2000s, the research field of style-transfer and automatic stylization has seen a steady rise in popularity up to a point where its algorithms are being employed by professional digital artists in their creation process, allowing them to quickly and conveniently stylize images or video sequences based on either a hand-made or a generated example. Even though this research field has seen major strides in recent years, there are still substential issues and limitations preventing larger-scale utilization of such algorithms: limitations such as real-time or interactive stylization of either static images or video sequences, significant quality degradation in cases where example and target keyframes differ too much, temporal coherency of stylized video sequences, infeasible requirements for learning an image-to-image network, as well as stereoscopic applications of style-transfer algorithms remaining uncertain.In this dissertation thesis we describe the current state-of-the-art in the field of example-based style transfer. Along with that, we propose a set of algorithms that allow interactive production of high quality real-time stylizations of video sequences, both based on semantically meaningful automatic style transfer and keyframe-based learning approaches, on which we introduce new methods to solve the difficult requirement of large paired datasets or domain-specific datasets. We also propose a new method that enables style transfer to still be possible when applied to a stereoscopic scenario. In particular, we propose: (1) a neural method approximating results of a patch-based style transfer method in real time, (2) an interactive method for real-time style transfer of video sequences, (3) a computationally inexpensive method for real-time stylization of facial videos even on low-end devices, (4) a video style-transfer method greatly improving the output quality and long-term coherence, and finally (5) a method able to achieve stereo-consistent style transfer of video sequences.Combined together, this thesis makes important steps forward to high-quality, real-time, interactive,temporally and stereoscopically consistent style transfer.