Willkommen in der Matrix? Visuelle KI und das Bauchgefühl

Es ist ja bereits viel geschrieben worden über das mediale KI Flaggschiff ChatGPT, dessen Einsatzmöglichkeiten oder den Spekulationen über die Zukunft der Künstlichen Intelligenz. Pro und Contra, zwischen Faszination und Terminator. Auch wenn man bei Large-Language Models“ wie ChatGPT und seiner Fähigkeit zu „Gedächtnis“ noch nicht von wirklicher „Intelligenz“ sprechen kann, liefern sie doch beeindruckende Ergebnisse und Anwendungsmöglichkeiten.

Aber ChatGPT ist ja nur die Spitze des digitalen Eisbergs. Richten wir den Fokus auf die KI-Bildgeneratoren, so bieten diese aktuell tieferen Anlass zur Diskussion und stellen durchaus auch die dringende Frage, wie wir gesellschaftlich damit umgehen werden.

Aus unserer beruflichen Expertise heraus haben wir uns natürlich intensiv mit den aktuellen Möglichkeiten der „kreativen KI“ und ihren Werkzeugen auseinandergesetzt: Wir haben damit gespielt, nicht wenig gestaunt und am Ende beeindruckende Bilder und Ergebnisse erzeugt.

Es ist faszinierend und inspirierend zu sehen, welche schier unbegrenzten Möglichkeiten Text-to-Image KI Generatoren bieten und mit welcher rasanten Geschwindigkeit sie sich entwickeln, ganz zu schweigen von der Qualität der generierten Bilder, wenn man die KI versteht und das „Prompting“ beherrscht.

Man kann förmlich zusehen, wie die Algorithmen mit jedem generierten Bild lernen und immer bessere oder realistischere Ergebnisse liefern, trainiert von Millionen Anwendern weltweit und ihren menschlichen Gehirnen. Täglich werden so Unmengen von digitalen Bildern via Midjourney, StableDiffusion, Dall-E & Co. generiert. Malen nach Zahlen – oder besser: Malen nach Bits – und das mit einer irrwitzig rasant wachsenden Anzahl von neuronalen Verknüpfungen, könnte man sagen.

Quo Vadis visuelle KI – die Sache mit dem Bauchgefühl

Robot reading a book

Doch neben der absoluten Faszination wächst auch ein mehr als unbehagliches Bauchgefühl. Gerade als Werber ist man sich der mächtigen Psychologie von Bildern bewusst und setzt sie daher in jedem Projekt mit Bedacht und Strategie ein. Problematisch und folgenschwer kann dies aber gerade in politischer oder gesellschaftlicher Hinsicht werden. Ein „Spin Doctor“ oder politisch aktive PR-Agenturen (aber auch zunehmend Privatpersonen über die sozialen Medien), bedienen sich da freilich anderer Mittel – denn so funktioniert (!) das Geschäft, das wusste schon Edward Bernays, der unumstrittene Vater der „Propaganda“, als der Telegraf noch das Maß der Dinge war.

Schon vor mehr als 4 Jahren haben wir aus reiner Neugierde die ersten Experimente mit „Deep-Fake“ Videos gemacht und waren nicht wenig überrascht, wie schnell sich passable Ergebnisse auf dem Bürorechner zeigten, auch wenn die Erstellung noch umständlich war. Heute sind gut gemachte (auch privat erstellte) Deep-Fake Videos nicht mehr von echten Videos zu unterscheiden. KIs, die jede menschliche Stimme aus Audiodateien schnell erlernen und imitieren können, vervollständigen dabei bald das perfekte Video aus der Matrix. Was früher gute Photoshop-Skills erforderte, wird heute und in naher Zukunft durch „Prompting“ (Texteingabe) in Sekunden erledigt. Nicht umsonst haben Tech-Größen wie Elon Musk oder Steve Wozniak kürzlich in einem offenen Brief angemahnt, „auf die Bremse zu treten“, um sichere KI Standards und Sicherheitsprotokolle zu implementieren, auch um vor einer unkontrollierbaren Flut von „Propaganda“ auf allen Informationskanälen zu warnen.

Das mehr als diffuse Bauchgefühl fragt: Wohin führt es uns als Gesellschaft, wenn wir in einer politisch komplexen Welt nicht mehr zwischen realen und künstlich generierten Inhalten unterscheiden können – und das in einer schier irrsinnigen Geschwindigkeit? Wohin führt es uns, wenn wir in der Konsequenz keinem Bild, keinem Video, keiner Tonaufnahme mehr glauben können, die wir nicht selbst gemacht haben? Wenn wir mit jeder Messenger Sprachnachricht unsere Stimme einem Server oder dem Gegenüber preisgeben, und unsere Identität über öffentliche Bilder für eine KI reproduzierbar ist?

Das ganze Ausmaß ist heute sicher noch nicht absehbar, aber wir werden wohl in den nächsten Jahren (Monaten?) über eine wie auch immer geartete umfassende „Medienethik“ diskutieren müssen. Oder ein jeder muss sich dann fatalistisch – um den Film „Die Matrix“ erneut zu bemühen – zwischen der roten und der blauen Pille entscheiden. Eine Diskussion und Standpunkte darüber wären sicher spannend und interessant.

Etwas Ironie am Ende – die Selbstreflexion einer künstlichen Intelligenz

Für das Titelbild diess Artikels haben wir ChatGPT gebeten, eine aussagekräftige Beschreibung für eine Text-to-Image KI zu erstellen. Unsere schmunzelnd gemeinte Frage an ChatGPT war, wie ChatGPT die möglichen Gefahren für die Menschheit bezüglich KI in einem Bild visualisieren würde. Die Antwort von ChatGPT wurde dann von Midjourney in diesen 4 Varianten visuell umgesetzt.

In diesem Sinne: Hasta la vista, baby!

Alexander Klank