Die Kunst der Malerei fasziniert und inspiriert die Menschen seit jeher. Diese Anziehungskraft erklärt sich aus dem Zusammenspiel von Inhalt und Stil des Gemäldes, mit dem die Künstler außergewöhnliche visuelle Erlebnisse schaffen. Lange Zeit war das Hauptziel, den Fotorealismus zu erreichen, d.h. die Wirklichkeit so darzustellen, wie sie vom menschlichen Sehsystem wahrgenommen wird. Mit dem Aufkommen der Fotografie im 19. Jahrhundert konnte der Fotorealismus schneller und einfacher erreicht werden als je zuvor. Infolgedessen wandten sich einige Künstler von ihren früheren Zielen ab und konzentrierten sich auf die Vermittlung von Botschaften oder Gefühlen durch ihre Kunst. Diese Bewegung führte zu nicht-photorealistischen Kunststilen wie dem Impressionismus oder dem Kubismus mit zeitlosen Meistern wie Monet oder Picasso.
Der Trend zum nicht-photorealistischen Rendering (NPR) hat sich in der Computergrafik gegen Ende des 20. Jahrhunderts durchgesetzt. In den letzten Jahren hat die zunehmende Rechenleistung zur Entwicklung des Neuronalen Stiltransfers (NST) geführt, der einen Paradigmenwechsel im NPR darstellt. NST ermöglicht es dem Benutzer, beliebige Inhalte und künstlerische Stile miteinander zu verknüpfen, indem nur ein einziges Beispielbild zur Verfügung gestellt wird. NST ermöglicht erstmals die praktische Umsetzung eines generalisierten Stiltransfers. Diese Technik wird heute in vielen Bild- und Videobearbeitungsprogrammen oder in der virtuellen Realität verwendet und kann bei der Auswahl von Materialien oder beim Design von Kleidung eingesetzt werden.
Allerdings skaliert bei diesen NST Ansätzen die Rechenleistung quadratisch mit der Bildauflösung, was die Ergebnisbilder auf niedrigere Auflösungen beschränkt. Dadurch gehen feinere Details in den Stilbildern verloren. Außerdem sind diese Ansätze nicht in der Lage, einen längerfristigen Kontext zu lernen. Beispielsweise kann es bei den derzeitigen Ansätzen vorkommen, dass bei der Generierung einer Ziegelmauer die Ziegel willkürlich verteilt sind und nicht in horizontalen Schichten nebeneinander liegen.
In dieser Dissertation werden Methoden zur Realisierung eines kontextabhängigen, hochauflösenden NSTs untersucht, detailliert und vorgeschlagen. Das Ziel ist eine hochauflösende Generierung von stilisierten Ergebnisbildern unter Berücksichtigung des stilisierten Kontextes während der Stilisierung. Ein vielversprechender Ansatzpunkt aus dem aktuellen Stand von Wissenschaft und Technik sind sogenannte Transformer. Diese stammen aus dem Natural Language Processing und werden bereits seit einigen Jahren auch in der Computer Vision eingesetzt. Der Unterschied zu anderen aktuellen NST Ansätzen besteht darin, dass diese Modelle durch die so genannte „Selbstaufmerksamkeit“ besser in der Lage sind, den Kontext von zum Beispiel Sprache zu erlernen. Ein wichtiger Zwischenschritt auf dem Weg zu dem Ziel der Dissertation wird daher die Anpassung der Transformer an einen kontextabhängigen, hochauflösenden Stiltransfer sein.