KI-generierte Bewegtbilder am Beispiel von OpenAI’s Sora – Chancen und Risiken im Kontext digitaler Öffentlichkeiten
- Markus Watzl
- 10. Okt.
- 6 Min. Lesezeit
Aktualisiert: 17. Nov.

Es durfte nicht überraschen, dass Ken Ralston und sein Team bei Industrial Light & Magic 1995 mit dem Academy Award für ihre Arbeit an Forrest Gump ausgezeichnet wurden, immerhin war ILM zu diesem Zeitpunkt schon seit fast 20 Jahren die führende Special Effects-Schmiede der Welt. Computer Generated Imagery (CGI)-Effekte steckten 1995 quasi noch in den Kinderschuhen und doch gelang es Ralstons Team mittels einer Kombination aus Compositing-, Tracking- und Rotoscoping-Verfahren, sowie eines Tracking-Algorithmus, den realen Schauspieler Tom Hanks in historisches Filmmaterial „einzubauen“, etwa um ein Treffen mit John F. Kennedy darzustellen.
Dieser Erfolg feiert 2025 seinen 30. Jahrestag und heute ist keine Filmproduktionen mehr ohne den immensen Einsatz von VFX denkbar. In den vergangenen Jahrzehnten hat diese Technologie natürlich einige Verbesserungen durchlaufen und heute gibt es bspw. Überlegungen, bereits verstorbene SchauspielerInnen der klassischen Hollywood-Ära in aktuelle Produktionen einzubauen.
Man möge mir diesen kurzen, filmhistorischen Exkurs verzeihen, aber natürlich inspirieren und befruchten diverse technische Entwicklungen sich auch stets gegenseitig oder besitzen verschiedene andere Gemeinsamkeiten.
Generative KI als Transformationsfaktor audiovisueller Produktionsprozesse
Ähnlich wie die bahnbrechenden Innovationen im Bereich der digitalen Bildbearbeitung und CGI seit den 1990er-Jahren einen nachhaltigen Transformationsprozess innerhalb der audiovisuellen Medienproduktion eingeleitet haben (vgl. Rickitt, 2000), lässt sich gegenwärtig ein analoger Paradigmenwechsel im Feld der KI-basierten Content-Generierung beobachten. Ein besonders prägnantes Beispiel hierfür stellt OpenAI’s „Sora“ dar – ein generatives KI-Modell, das die vollautomatisierte Erstellung fotorealistischer Bewegtbilder auf Grundlage natürlicher Spracheingaben ermöglicht (OpenAI, 2024).
Sora wurde im September 2024 vorgestellt und basiert, ähnlich wie etablierte Modelle wie DALL·E 3 oder Stable Diffusion, auf einem sog. „Diffusionsmodell“ (Rombach et al., 2022; OpenAI, 2024). Dieses Verfahren generiert visuelle Inhalte, indem es ein Ausgangsbild aus statistischem Rauschen sukzessive in eine dem Prompt entsprechende Darstellung transformiert. Eine zentrale technische Neuerung von Sora liegt in der simultanen Verarbeitung mehrerer Frames, wodurch Objektkonsistenz gewährleistet und Bewegungsartefakte reduziert werden (OpenAI, 2024). Das Modell kombiniert die Funktionslogik eines Diffusionsverfahrens mit einer Transformator-Architektur, wie sie auch bei GPT zum Einsatz kommt (Brown et al., 2020). Die Fähigkeit, hochauflösende Sequenzen in 4K-Qualität zu erzeugen, erweitert die Einsatzmöglichkeiten insbesondere für professionelle Anwendungsfelder wie Filmproduktion, Werbung und immersive Medienformate (TechCrunch, 2024). Im Vergleich zu anderen aktuellen Systemen wie Runway Gen-3 oder Meta’s Make-a-Video zeichnet sich Sora durch eine gesteigerte Kohärenz zusammenhängender Szenen, flüssige Bewegungsabläufe und nahtlose Übergänge aus (vgl. Meta AI, 2023; Runway, 2024).
Mit der Veröffentlichung von Sora 2 am 1. Oktober 2025 wurde die Technologie weiter ausgebaut (OpenAI, 2025). Neben einer höheren fotorealistischen Präzision und verbesserter physikalischer Konsistenz implementiert das Modell erstmals die Generierung synchronisierter Audioelemente, etwa Dialoge, Soundeffekte und Hintergrundgeräusche. Während frühere Systeme physikalische Gesetzmäßigkeiten teilweise zugunsten der Prompt-Kohärenz vernachlässigten, adressiert Sora 2 diese Defizite durch ein realistischeres Simulationsmodell (ebd.). Dies verdeutlicht exemplarisch das von OpenAI angeführte Beispiel eines Basketballwurfs: Ein Ball folgt nicht mehr einer unplausiblen Trajektorie, sondern prallt physikalisch korrekt vom Brett ab (OpenAI, 2025).
Die maximale Ausgabeauflösung bleibt weiterhin auf 1920 × 1080 Pixel beschränkt, auch wenn vereinzelte Beispielprompts 4K-Auflösungen suggerieren. Konkurrenzprodukte wie Veo3 verfügen bereits über native 4K-Unterstützung, wodurch sich ein wettbewerbsstrategischer Druck auf OpenAI abzeichnet (Google DeepMind, 2025).
Parallel zur Modellveröffentlichung wurde eine dedizierte iOS-Applikation unter dem Namen „Sora“ eingeführt. Diese Plattform dient der Erstellung, Bearbeitung und Distribution KI-generierter Videos. Ein zentrales Feature bildet die Funktion „Cameos“, die es NutzerInnen ermöglicht, das eigene visuelle und auditive Abbild nach einmaliger Aufnahme automatisiert in KI-generierte Szenen einzubetten (OpenAI, 2025).
OpenAI adressiert nach eigenen Angaben technologische und gesellschaftliche Risiken wie Desinformation, Suchtverhalten und algorithmische Verstärkungseffekte (ebd.). Die Architektur des App-internen Feeds ist auf kreative Nutzung statt maximale Engagementzeit ausgelegt. Der Empfehlungsalgorithmus soll sich zudem über natürliche Spracheingaben steuern lassen, was eine erhöhte Nutzerautonomie gewährleisten soll.
Cameos als Katalysator für Deepfakes und Desinformationskampagnen
Besonders die Cameos-Funktion steht im Zentrum kritischer Debatten. Aufgrund ihrer Fähigkeit, biometrische Merkmale realer Personen – insbesondere Gesicht und Stimme – nahtlos in synthetisch generierte Inhalte zu integrieren, stellt sie ein potenziell mächtiges Instrument zur Erzeugung und Verbreitung manipulativer Inhalte dar (The Verge, 2025). Kritische Stimmen verweisen auf die -Technologien Gefahr einer weiteren Normalisierung sogenannter Deepfake (vgl. Schick, 2023). Wie The Verge berichtet, eröffnet Cameos faktisch die Möglichkeit, Dritte ohne deren Einverständnis zu imitieren, wodurch die Grenze zwischen humoristischer Inszenierung und gezielter Täuschung zunehmend verschwimmt (The Verge, 2025). Diese Problematik berührt zentrale Fragen der digitalen Identität, der Authentizität audiovisueller Inhalte sowie der normativen Regulierung synthetischer Medien (vgl. Marichal, 2024).
Die gesellschaftlichen Implikationen sind erheblich: Täuschend echt wirkende, aber vollständig synthetische Inhalte können als Fehlinformation (unbeabsichtigt) oder Desinformation (intentional) in Umlauf gebracht werden. Die potenzielle Wirkung solcher Inhalte auf öffentliche Meinungsbildungsprozesse wird von ExpertInnen als gravierend eingeschätzt.
Eske Montoya Martinez van Egerschot, Chief AI Governance and Ethics Officer bei DigiDiplomacy, konstatierte bspw. im Vorfeld wegweisender Wahlen in den USA und Taiwan: „KI verändert Wahlkampfstrategien, Wählerbeteiligung und die Integrität von Wahlen.“ Überzeugende, jedoch gefälschte KI-Videos könnten „strategisch falsche Narrative verbreiten und legitime Quellen diskreditieren, um das Vertrauen in öffentliche Institutionen zu untergraben und Feindseligkeiten zwischen gesellschaftlichen Gruppen zu verstärken“ (vgl. van Egerschot, 2025, o. S.). Eine ähnliche Einschätzung teilt Nina Schick, die die Verfügbarkeit synthetischer Medien mit der Allgegenwärtigkeit digitaler Bildbearbeitungsprogramme wie Photoshop vergleicht (vgl. Schick, 2023). Der zentrale Unterschied liegt jedoch in der Radikalität der Effekte auf Wahrnehmung, Vertrauen und Kommunikationsökologie.
OpenAI betont zwar die Möglichkeit der NutzerInnen, die Verwendung ihres Cameo-Abbilds zu kontrollieren und den Zugriff jederzeit zu widerrufen. Dennoch bestehen substanzielle Missbrauchsrisiken (OpenAI, 2025). Die Einführung solcher Technologien markiert einen tiefgreifenden Einschnitt in die Produktionslogik digitaler Medien, da Inhalte künftig in kürzester Zeit, mit minimalem Ressourceneinsatz und hoher Authentizität erzeugt werden können. Dies führt zu einer weiteren Erosion der epistemischen Unterscheidbarkeit zwischen Faktischem und Fiktionalem (vgl. Schick, 2023; Marichal, 2024).
Zur Risikominimierung implementiert OpenAI Sicherheitsmaßnahmen, darunter ein obligatorisches Zustimmungsverfahren vor der Nutzung personenbezogener Daten, Widerrufsmöglichkeiten sowie eine verpflichtende Kennzeichnung aller generierten Inhalte durch sichtbare Wasserzeichen und unsichtbare C2PA-Metadaten (OpenAI, 2025). Dennoch bleibt die Wirksamkeit dieser Maßnahmen angesichts möglicher externer Distributionskanäle begrenzt.
Die Markteinführung von Sora 2 ist zugleich als strategischer Angriff seitens OpenAI auf etablierte Plattformakteure wie Meta oder Google zu interpretieren. Die einschlägige Technologieberichterstattung kontextualisiert den Launch vor allem im Rahmen eines verschärften Wettbewerbs im Kurzvideo-Segment (Techmeme, 2025). Parallel hierzu wächst die Befürchtung einer qualitativen Verflachung digitaler Informationsökosysteme durch massenhaft generierte, inhaltsarme KI-Videos, im Diskurs häufig als „AI Slop“ bezeichnet (TechCrunch, 2025).
Jose Marichal, Professor für Politikwissenschaft an der California Lutheran University, warnt in diesem Zusammenhang vor einer Erosion gesellschaftlicher Vertrauensstrukturen: „Wenn wir die Vertrauenswürdigkeit unserer Informationsumgebung verlieren, droht unsere Gesellschaft, sich in Extreme zu spalten: entweder in totale Skepsis oder in unerschütterliche Gewissheit“ (Marichal 2024: 112).
OpenAI stellt mit Sora 2 ein technologisch hochentwickeltes System bereit, das einer breiten Nutzerbasis neuartige kreative Ausdrucksformen eröffnet, gleichzeitig jedoch eine erhebliche gesellschaftliche Verantwortung mit sich bringt. Für minderjährige NutzerInnen sind standardisierte Nutzungslimits und eingeschränkte Cameo-Funktionen vorgesehen. Eltern können über die ChatGPT-Kindersicherung die Personalisierung des Feeds deaktivieren. Zudem sollen algorithmische Filter und Moderationssysteme die Generierung gewaltverherrlichender oder nicht jugendfreier Inhalte verhindern (OpenAI, 2025).
Die Sora-App wird zunächst in den USA und Kanada über ein Einladungssystem eingeführt. Nach erfolgter Einladung ist ein Zugriff auch über die Website sora.com möglich. Die Nutzung von Sora 2 ist in der Anfangsphase kostenfrei; ChatGPT-Pro-AbonnentInnen erhalten zusätzlich Zugriff auf eine erweiterte Version („Sora 2 Pro“) und eine API für EntwicklerInnen ist geplant. Perspektivisch plant OpenAI ein nutzungsbasiertes Geschäftsmodell auf Grundlage zusätzlicher Rechenkapazitäten, während das Vorgängermodell Sora 1 Turbo parallel verfügbar bleibt (OpenAI, 2025)
Fazit: Generative KI und die Transformation von Desinformationskampagnen
Die Entwicklung generativer KI-Systeme wie OpenAI’s Sora markiert einen paradigmatischen Wendepunkt in der medialen Infrastruktur moderner Informationsgesellschaften. Während frühere Deepfake-Technologien in ihrer Anwendung noch relativ hohe technische Hürden aufwiesen, senkt Sora diese signifikant und macht die Erstellung hyperrealistischer audiovisueller Inhalte einer breiten NutzerInnenbasis zugänglich. Diese Demokratisierung der Medienproduktion eröffnet zwar neue kreative und ökonomische Potenziale, verstärkt jedoch zugleich die strategische Wirksamkeit digitaler Desinformationskampagnen.
Die Möglichkeit, realitätsnahe audiovisuelle Inhalte automatisiert zu generieren, verändert die Dynamik der Desinformationsverbreitung fundamental. Kampagnenakteure können ihre Narrative künftig nicht nur textlich oder visuell, sondern multimodal und mit hoher Überzeugungskraft inszenieren. Hyperrealistische Inszenierungen politischer Ereignisse, vermeintlicher ZeugInnenaussagen oder manipulierte Darstellungen öffentlicher Personen haben das Potenzial, Informationsräume nachhaltig zu destabilisieren. Insbesondere in politisch sensiblen Kontexten – etwa Wahlkämpfen, Protestbewegungen oder internationalen Konflikten – kann dies zu einer gezielten Erosion von Vertrauen in Institutionen, Medien und demokratische Entscheidungsprozesse führen (vgl. van Egerschot, 2025; Schick, 2023).
Die durch generative KI beförderte Skalierbarkeit, Geschwindigkeit und semantische Präzision solcher Kampagnen stellt klassische Mechanismen der Desinformationsbekämpfung – wie Faktenchecks oder Content Moderation – zunehmend infrage. Da synthetische Medienprodukte in ihrer Erscheinungsform faktisch nicht mehr zuverlässig von authentischen Inhalten unterscheidbar sind, droht eine epistemische Krise, in der Glaubwürdigkeit nicht mehr aus dem Inhalt selbst, sondern aus der Quelle oder der sozialen Dynamik seiner Verbreitung abgeleitet wird (vgl. Marichal, 2024).
Gleichzeitig lassen sich normative Kontrollinstrumente – wie verpflichtende Wasserzeichen, Metadatenstandards oder Zustimmungspflichten – zwar als notwendige, jedoch nicht hinreichende Schutzmaßnahmen bewerten. Die technische Möglichkeit, erstellte Inhalte außerhalb kontrollierter Plattformumgebungen zu verbreiten, begrenzt die Effektivität solcher Sicherheitsmechanismen erheblich. Damit verschiebt sich die Verantwortung zunehmend von Plattformen und ProduzentInnen hin zu RezipientInnen und öffentlichen Institutionen, was neue Fragen der digitalen Resilienz, Medienkompetenz und regulatorischen Steuerung aufwirft.
Langfristig ist daher nicht allein mit einer Zunahme einzelner Desinformationsfälle zu rechnen, sondern mit einer strukturellen Veränderung der Informationsökologie selbst. In einem von synthetischen Medien dominierten digitalen Raum droht die Verwischung der Grenze zwischen Authentizität und Simulation, wodurch Vertrauen als zentrale Ressource demokratischer Öffentlichkeiten systematisch unterminiert werden kann. Ein effektiver Umgang mit dieser Herausforderung erfordert einen mehrdimensionalen Ansatz: die Entwicklung robuster Authentifizierungsstandards, die Stärkung digitaler Medienkompetenz in der Bevölkerung, den Aufbau international koordinierter Regulierungsrahmen sowie eine wissenschaftlich fundierte Erforschung der gesellschaftlichen Wirkung synthetischer Medien. Nur durch ein solches Zusammenspiel technischer, institutioneller und kultureller Maßnahmen lässt sich der Missbrauch generativer KI im Kontext von Desinformationskampagnen wirksam eindämmen.





Kommentare