Vorwort – Eine lauernde Gefahr

Immer wieder passiert es uns durch die fortschreitende Entwicklung neuer Techniken, dass gewisse Meilensteine erreicht werden, welche die Menschheit für immer verändern. Zum Beispiel die Erfindung von integrierten Schaltkreisen dank der Halbleitertechnik, oder auch die Erfindung des Internets. Jeder von uns besitzt dadurch mehrere Geräte mit verschiedenen Mikroprozessoren, welche miteinander kommunizieren und weiters auch die Menschen miteinander verbindet. Hunderte Millionen Menschen haben dadurch eine Arbeit, ihre Informationsquelle und einen wichtigen Kommunikationskanal. Einen Lebenssinn, um es überspitzt zu formulieren. Die Welt hat sich durch diese Entwicklungen für immer verändert und wäre ohne gar nicht mehr vorstellbar.

Genau solch ein fundamentaler Wandel steht uns in naher Zukunft auch bevor. Ich fürchte nur, dass die Konsequenzen weit negativer sind. Aber lasst mich das Thema mal ausführen, beziehungsweise vorerst nochmal auf den Titel zurückkommen.

Was ist das Uncanny Valley?

Uncanny Valley ist die Bezeichnung für die Akzeptanzlücke für einen paradox erscheinenden Effekt, der bezüglich der Akzeptanz von künstlichen Figuren auf Zuschauer auftritt. Ursprünglich wurde dieser Effekt als erstes von Masahiro Mori als „Phänomen des unheimlichen Tals“ beschrieben. [1] Die Akzeptanz von künstlichen Figuren steigt nämlich nicht linear mit dem Anthropomorphismus (der Menschenähnlichkeit) , sondern in einer gewissen Spanne stellt man diesbezüglich einen sehr großen Einbruch da. Folgende Grafik verdeutlicht das sehr schön:

Verdeutlichung des Uncanny Valley Phänomens - Quelle: LINK
Die vertikale Achse definiert die Vertrautheit für die Zuschauer, die horizontale Achse definiert die Menschenähnlichkeit. Die Theorie des „Uncanny Valley“ besagt also, dass ab einen gewissen Grad der Menschlichkeit die Akzeptanz total abfällt. Erst wenn die Ähnlichkeit so enorm ist, dass die künstliche Figur sowieso nicht mehr vom Menschen zu unterscheiden ist, steigt die Akzeptanz wieder an.

Erklärungen für das Uncanny Valley

Es gibt verschiedene Erklärungen für dieses Phänomen, wobei keine als ausreichende wissenschaftliche Erklärung dient. [2]

1. Medienpsychologische Erklärung: Figuren, die eindeutig auf den ersten Blick maschinell wirken, wird zusätzliches menschliches Verhalten bzw. menschliche Eigenschaften gutgeschrieben. Versucht jedoch eine Figur offensichtlich menschlich zu wirken, wird ihr jede Art von mechanischen Verhalten als Fehler angemerkt.

2. Psychologische Erklärung: Roboter die probieren sich menschlich zu präsentieren werden unterbewusst vom Beobachter mit dem selben Maßstäben gemessen wie Menschen. Somit werden unnatürliche Eigenschaften sofort negativ war genommen.

3. Neurowissenschaftliche Erklärung: Mit Untersuchungen durch Magnetresonanztomographie konnte man Hinweise finden, dass möglicherweise die Abweichungen der intern gebildeten Vorhersage das Phänomen verursachen könnte.

Das ist auch einer der Gründe warum Animationsfirmen wie Disney oder Pixar viel mehr in die Richtung gehen Charaktere zwar realistisch wirken zu lassen, jedoch nicht menschlich. Sie werden, sowohl bewusst als auch unterbewusst, mehr akzeptiert.

Wir haben das Uncanny Valley schon durchquert!

Viele Experten wie CGI-Artists, Engine-Programmier oder GPU-Hersteller sehen das Uncanny Valley schon als durchquert an. Die Kombination zwischen immer fähigeren Engines und Animationssoftware-Produkten kombiniert mit dem jährlichen Anstieg an Compute-Power, vor allem im Grafikkartenbereich, hat dafür gesorgt das fotorealistische CGI als machbar angesehen wird. Solange man genug Ressourcen hat, die man investieren kann. Ein gutes Video welches exakt diesen Umstand erklärt findet ihr hier:

Ich persönlich bin der Meinung, dass wir das Uncanny Valley noch nicht komplett durchquert haben, aber das ist subjektive Ansichtssache. Sehr wohl denke ich aber, dass wir uns in großer Geschwindigkeit dem Ende annähern. Dementsprechend sollten wir uns endlich über die Konsequenzen Gedanken machen. Ein offener Diskurs muss her.

KI trifft CGI - Wo liegt die Gefahr?

Es geht um die Technologie die momentan in aller Munde ist: Künstliche Intelligenz. Auf Bilder/Videos bezogen war es anfänglich nur eine Mustererkennung, nun sind wir dank neuronalen Netzwerken schon viel weiter. Softwareprodukte wie der aktuelle Photoshop können dank künstlicher Intelligenz menschliche Motive schon automatisch freistellen[2]. Ein Produkt von Google kann stark verpixelte Portraits wieder ein erkennbares Gesicht geben.[3]

Gefährlich wird es ab dem Moment, in dem die Künstliche Intelligenz mit der Kraft moderner Engines kombiniert wird und die reine Täuschung des Zuschauers als Ziel deklariert wird. Es wird etwas geschaffen, was selbst für Experten nicht mehr als künstliches Produkt erkannt werden kann. Genau dieser Trend kommt gerade auf uns zu.

Deep Fakes - Alles wird zur Fälschung

Bei Deep Fakes werden Gesichter von Personen in Videos durch andere Gesichter erkennt. Die Bezeichnung selbst ist eine Kombination aus „Deep learning“ (tiefergehendes Lernen durch neuronale Netzwerke) und dem englischen Wort „Fake“ (Fälschung). Alles was für Deep Fakes notwendig ist, sind ein paar einzelne Bilder der Person, die man in das Original Material retuschieren will. Wie schon zu oft in der Technikwelt, fand diese Technik ihr erstes große Publikum durch Pornos. Nutzer verwendeten Bilder von Prominenten um entsprechende Pornos zu fälschen. Reddit-User haben gemeinsam an der Verbesserung der Ergebnisse gearbeitet und insgesamt auch eine Unzahl von Deep Fakes erstellt. Ich verlinke euch hier mal den passenden jugendfreien Subreddit welcher Beispiele für Deep Fakes enthält: GifFakes

So unerträglich schrecklich gefälschte Pornos für die abbildenden Personen selbst sein müssen, können Deep Fakes noch viel schlimmere und größere Auswirkungen haben. Ich zeige hier kurz mal ein Beispiel welches mit dem 44. Präsidenten der Vereinigten Staaten, Barack Obama, erstellt worden ist:

Fügt man nämlich zu den Mix von KI und CGI jetzt noch zusätzlich Sprachsynthese[4] hinzu, kann man die Personen nicht nur optisch fälschen, sondern sie auch sagen lassen was auch immer man will. Selbstverständlich mit der passenden Klangfarbe. Diese Kombination kann fürchterliche Ausmaße annehmen. Momentan dauert die Berechnung beziehungsweise das Erstellen natürlich noch länger bzw. ist noch nicht von jeglichen Laien ausführbar:

For example, Jordan Peele's production company Monkeypaw Productions put the Obama video together using FakeApp and Adobe's popular After Effects program for graphics editing. BuzzFeed reports it took 56 hours of automatic processing, overseen by a video effects profesional, to get the video right.[5]

Jedoch ist es bei der enormen Entwicklungsgeschwindigkeit in den Feldern Rechenleistung und neuronalen Netzwerken nur eine Frage der Zeit, bis es auf Knopfdruck klappt.

Bei Sprachsynthese ist man schon länger sehr weit vorgeschritten. Adobe hat solch eine Funktion seit längeren in sein Audiosoftwareprodukt integriert bei der normalen Texteingabe in die passende Stimme umgewandelt wird:

In Österreich werden zum Beispiel die Durchsagen an den Bahnhöfen genau durch solch ein System realisiert. Dafür wurde zuvor ein Algorithmus mit einer Vielzahl von Sprachproben der jeweiligen Person gefüttert. [6]

Unendlich gefährlich - Möglicherweise weltverändernd

Die entsprechenden Beispiele sind hierbei natürlich endlos. Man denke sich nur Hacker würden ein TV-Signal eines Senders kurzschließen und eine Kriegserklärung des Präsidenten gegenüber eines Nachtbarlandes erläutern. Oder man könnte politische Gegner in kürzester Zeit völlig bloßstellen. Dies wären Fake-News auf einem Niveau, welches wir uns momentan noch gar nicht vorstellen können.

“The prospect of any Internet rando being able to swap anyone’s face into porn is incredibly creepy. But my first thought is that we have not even scratched the surface of how bad ‘fake news’ is going to get.” - Julian Sanchez[7]

Die Technologie ist vorhanden, und wächst unglaublich schnell. Wir müssen uns somit als Gesellschaft Gegenmaßnahmen überlegen.

Können wir dagegen etwas tun?

Selbst normale Fake-News Berichte sind momentan schon ein Problem. Man braucht sich nur die ganze Berichterstattung über den letzten Präsidentschaftswahlkampf ansehen. Hierbei handelt es sich jedoch meist um Nachrichten die noch relativ leicht, zumindest von Experten, als Fälschung enttarnt werden können. Hier kann man also mit Medientethik und früher Bildung über die Verwendung/Konsum von Medien stark entgegenwirken. Zusätzlich ist es oft leicht möglich mit dem verlinken auf tatsächliche Fakten/Beweise/mehrfacher (richtiger) Berichterstattung die im Umlauf gebrachten Fake-News zu entlarven.

Video-Aufnahmen gelten bislang als wichtige Beweise, um Sachverhalte zu klären. Das könnte bald vorbei sein, denn die Manipulation von Bewegtbildern ist technisch quasi für jeden möglich. Öffentlichkeit und vor allem Medienmacher müssen künftig also noch viel genauer hinschauen, welche Videos echt sind und welche manipuliert.[8]

Bei perfekten selbst erschaffenen Fälschungen ist es natürlich völlig unmöglich. Selbst Experten können dies nicht. Wird etwas in eine gewöhnliche Videoaufnahme verpackt ist es auch völlig unschlüssig ob eine Aufnahme von einem menschlichen Team kreiert worden ist, oder nur ein neuronales Netzwerk dahintersteckt. Alles wird fälschbar.

Bietet die Blockchain eine Lösung?

Das ist eine Frage die momentan keine Lösung kennt. Für Einzelbilder gibt es ja schon passende Algorithmen, die sich den Bildaufbau bzw. die Metadaten von Bildern ansehen und entsprechend sagen ob solch ein Bild gefälscht wurde oder nicht.

Einzelbilder können recht leicht entlarvt werden - Quelle: LINK

Bei Videos sieht das, schon alleine aufgrund der Datenmenge und der notwendigen Rechenleistung ganz anders aus. Auch bringt das Dasein solcher Softwareprodukte gar nichts, wenn sie nicht verwendet werden. Diese müssten gesetzlich in jegliche Plattformen wie Facebook, Youtube und Co. integriert werden. Selbstverständlich ist jegliche Softwarekontrolle wiederum übergehbar, wenn man möchte.

Die Blockchain bietet mit dem Grundsatz, dass etwas aus der Kette nicht löschbar ist diesbezüglich eine interessante Eigenschaft. Somit wäre es theoretisch immer möglich den ersten Upload/Version eines Videos zu bestimmen und somit spätere mögliche Fälschungen zu entlarven bzw. die richtige Version zu deklarieren. Hier ist wiederum fraglich wie dies in den Alltag beziehungsweise in Mainstream-Medien integriert werden kann.

Ich finde es jedenfalls sehr komisch das in keiner der vielen Berichten, die ich nun bezüglich Fake-News recherchiert habe das Wort Blockchain auch nur einmal gefallen ist. Deswegen seid ihr nun dran.

Mich würde eure Meinung/Vorschläge interessieren

Zwar kenne ich mich selbst in der Videotechnik und den verwandten Themengebieten sehr gut aus, jedoch bin ich bei der Blockchain noch ein Anfänger und fühle mich nicht fähig hier ultimative Aussagen über die Möglichkeiten zu nennen. Hier auf Steemit gibt es zum Glück unzählige Experten bezüglich dieses Thema, dementsprechend würde ich mich unglaublich freuen von euch qualitativen Input zu bekommen. Vor allem in der deutschsprachigen Community sind wir da gefühlt sehr gesegnet mit Fachwissen.

Ich könnte mir zum Beispiel eine digitale Signatur vorstellen die Videodateien mit einer Kamera bei der Aufnahme verknüpft und klar als real gefilmtes Material deklariert. Diese Speicherung würde wiederum in der Blockchain erfolgen. Jedoch weiß ich nicht ob ich diese Möglichkeit zu Ende denken kann.

Fazit

Das Uncanny Valley wird sehr bald komplett hinter uns liegen, egal ob in der Robotik, oder in der Welt der von Computer erstellten Bilder und Videos. Mit einem neuen technologischen Kapitel dieses Ausmaßes wird es auch notwendig sein neue Regeln und Vorgänge zu definieren um nicht die Kontrolle zu verlieren. Bei der Robotik und im allgemeinen Bereich der künstlichen Intelligenz entsteht langsam ein Diskurs darüber, auch wenn dieser meiner Meinung nach immer noch viel zu schwach ist. Bezüglich der bevorstehenden Revolution der Medien gibt es dies jedoch noch nicht. Die Zeit bleibt jedoch, wie auch sonst nirgends, auch in diesen Bereich nicht stehen. Lasst uns bitte nicht eine schlimme Konsequenz benötigen, bis wir hier Regeln und Maßnahmen definieren. Es ist nicht so als wäre es nicht vorhersehbar.

Ich hoffe euch hat dieser Bericht meinerseits gefallen und euch eventuell selbst ein wenig zum Nachdenken angeregt. Wie auch sonst würde ich mich sehr auf einen Diskurs zu dem Thema freuen. Eventuell wird nämlich meine Masterarbeit stark in dieser Richtung gehen, somit bin ich über jeglichen Input sehr glücklich.

Quellen:
[1] https://link.springer.com/chapter/10.1007/978-3-642-40744-4_35
[2] https://de.wikipedia.org/wiki/Uncanny_Valley
[3] https://arstechnica.com/information-technology/2017/02/google-brain-super-resolution-zoom-enhance/
[4] https://de.wikipedia.org/wiki/Sprachsynthese
[5] https://www.tomsguide.com/us/deepfake-faq-fake-video-fakeapp,news-27003.html
[6] https://www.rnz.de/wirtschaft/wirtschaft-magazin_artikel,-Wirtschaftsmagazin-Heidelberger-Software-steuert-Zugdurchsagen-in-Oesterreich-_arid,87181.html
[7] https://www.lawfareblog.com/deep-fakes-looming-crisis-national-security-democracy-and-privacy
[8] http://faktenfinder.tagesschau.de/hintergrund/deep-fakes-101.html

Meine anderen Kanäle: @tobypics: LINKYouTube: LINKInstagram: LINK

Was lauert hinter dem Uncanny Valley? Perfekte Fälschungen!