OpenAI hat mit ChatGPT einen Meilenstein in der Künstlichen Intelligenz gesetzt. Keine zwei Jahre später kommt der nächste große Release: das Text-zu-Video-Modell Sora. Ein paar wenige Sätze reichen und das KI-Model erstellt täuschend echte Videos. OpenAI setzt hiermit ganz klar neue Maßstäbe in der Welt der Videoproduktion.

Ich habe mir genauer angeschaut, was Sora alles kann und muss sagen: Ich bin beeindruckt. Wie das KI-Video-Tool funktioniert, wer es nutzen kann und was das für die Filmindustrie bedeutet, erkläre ich Ihnen in diesem Artikel.

→ Kostenloser Leitfaden: 84 ChatGPT-Prompts für Marketer [Jetzt herunterladen]

Quelle: YouTube

Das neue KI-Tool kann sogar noch mehr als nur Videos aus Prompts generieren. Wie OpenAI auf seiner Website zur Veröffentlichung von Sora Mitte Februar 2024 bekannt gab, kann das Tool auch Videos aus Bildern generieren oder bestehende Videos verlängern und fehlende Sequenzen ergänzen.

OpenAI zufolge ist „Sora in der Lage, komplexe Szenen mit mehreren Charakteren, spezifischen Bewegungsmustern und genauen Details des Motivs sowie des Hintergrunds zu generieren. Das Modell versteht nicht nur, wonach der Nutzende in seinem Prompt gefragt hat, sondern auch, wie Dinge in der physischen Welt existieren.“

Wie funktioniert Sora?

Sora funktioniert als eine Art Kombination aus Text- und Videogenerator, genauer gesagt ist die Video-KI ein Diffusionsmodell, welche sich die Transformer-Architektur zunutze macht, um qualitativ hochwertige Videos aus kleineren Datenpaketen („Patches“ genannt) zu erstellen. Die technologische Grundlage dafür liefern die bekannten GPT-Modelle und Dall-E-3 von OpenAI.

Anstatt das nächst wahrscheinlichste Wort in einem Satz vorherzusagen, sagt Sora den nächsten „Patch“ in einer Seuqenz von „Patches“ voraus. Dadurch kann OpenAI viel mehr visuelle Daten für das Training von Sora einsetzen als es vorher möglich war.

Doch Sora macht auch einen großen Schritt in Richtung Artificial General Intelligence (AGI). Diese Technologie kann das gesamte Spektrum menschlicher kognitiver Fähigkeiten vervielfältigen. Insbesondere in der Tech-Szene wird viel darüber diskutiert, dass die zugrundeliegende Technologie mit Dall-E-3 und GPT für die gezeigte Qualität der Videos nicht ausreicht. Aus diesem Grund wird vermutet, dass OpenAI möglicherweise bereits AGI austestet.

Das klingt bereits äußerst fortschrittlich, dennoch scheint die Technologie noch nicht ganz ausgefeilt zu sein. Wie ich im Online-News-Magazin Bloomberg las, sind sich die dortigen Expertinnen und Experten einig, dass Sora derzeit „not ready for prime time“ ist.

Das Magazin erhielt exklusive Einblicke in den KI-Videogenerator und geht davon aus, dass dieser noch länger in der Entwicklung stecken wird: „Sora ist immer noch ein Forschungsprojekt, zu dem nur sehr wenige Leute Zugang haben. Bei unserer privaten Demonstration mit OpenAI gab es klare Grenzen für das Tool.“

Laut Bloomberg kämpfe die Anwendung zum Beispiel immer noch mit Körperteilen, die an falschen Stellen auftauchen. Außerdem benötige die Software für die Generierung derzeit länger, als man zunächst annehmen würde.

Wer kann Sora nutzen?

Aktuell können nur bestimmte Personengruppen Sora nutzen. Dazu zählen weltweit ausgewählte Designer und Designerinnen, Filmemachende, Creator und Visual Artists. Wann die Video-KI für Privatpersonen zugänglich sein wird, wurde noch nicht kommuniziert – es gibt laut OpenAI „keinen Zeitplan oder weitere Details […] bezüglich der öffentlichen Verfügbarkeit“.

Mit Prompts kreiert: Beispiele für Videos mit Sora

Zu den ausgewählten Personen, die Sora nutzen können, zählt natürlich auch Sam Altman, Mitgründer und CEO von OpenAI. Er möchte Interessierte schon vor offiziellem Launch an der KI teilhaben lassen.

Altman rief daher zum Beispiel auf seinem X-Profil dazu auf, ihm Prompts für Videos zu schicken, um so auch jetzt bereits mehr Menschen mit der Video-KI in Berührung kommen zu lassen: „Wir möchten euch gerne zeigen, was Sora kann. Schickt mir Captions für Videos zu und wir werden einige erstellen lassen!“

Hier ist ein Beispiel für einen Prompt, den ein Nutzer eingesendet hat: „A half duck half dragon flies through a beautiful sunset with a hamster dressed in adventure gear on its back”:

Quelle: Twitter

Auf der Website von OpenAI finden Sie inzwischen insgesamt rund 50 Videos, die mit Sora erstellt wurden – ohne nachträgliche Anpassung, wie das Unternehmen wissen lässt. Auf YouTube hat OpenAI zudem einen ca. 10-minütigen Clip veröffentlicht, welcher die KI-generierten Videos zusammenfasst. Ich finde alle Videos äußerst beeindruckend:

Quelle: YouTube

Das gezeigte Mammut-Video entstand beispielsweise aus dem folgenden Prompt: „Several giant wooly mammoths approach treading through a snowy meadow, their long wooly fur lightly blows in the wind as they walk, snow covered trees and dramatic snow capped mountains in the distance, mid afternoon light with wispy clouds and a sun high in the distance creates a warm glow, the low camera view is stunning capturing the large furry mammal with beautiful photography, depth of field.“

Ganz so lang müssen die Sätze nicht einmal sein, um beeindruckende Ergebnisse zu erhalten. Aus dem Prompt „A litter of golden retriever puppies playing in the snow. Their heads pop out of the snow, covered in.“ erstellt Sora folgendes Video:

Quelle: YouTube

Was sind die Grenzen und Herausforderungen von Sora?

Dass die Funktionsweise von Sora noch nicht hundertprozentig perfekt ist, zeigt der Blick auf das ein oder andere bereits veröffentlichte Video. So bewegen sich die Welpen im Schnee nicht immer flüssig und rühren sich auch generell nicht von der Stelle. Noch deutlicher wird es bei einem anderen Video: Ein Mann läuft dort rückwärts statt vorwärts auf einem Laufband.

Auch Bloomberg weist, wie weiter oben schon beschrieben, darauf hin, dass Sora noch nicht komplett ausgereift ist. Dem ist sich OpenAI allerdings auch bewusst.

Auf der Website spricht das Unternehmen unverblümt davon, dass das Modell noch seine Schwächen hat. Dazu zählen laut OpenAI etwa:

  • Die Physik einer komplexen Szene, beispielsweise der Zusammenhang von Ursache und Wirkung. Ein Beispiel: Jemand beißt in einen Keks, welcher danach aber keine abgebissene Stelle aufweist.
  • Verwechslung räumlicher Details in einem Prompt – beispielsweise rechts und links oder vorwärts und rückwärts.
  • Schwierigkeiten bei Ereignissen, die in einem bestimmten Zeitfenster mit klarer Abfolge stattfinden.

Zudem sind die Ergebnisse aktuell auf 60 Sekunden begrenzt. Mich würde aber nicht wundern, wenn sich das bis zum Launch für die Öffentlichkeit noch ändert – oder es beispielsweise Optionen gibt, längere Videos zu generieren.

Was kostet Sora?

Da, wie erwähnt, noch nicht bekannt ist, wer Sora wann nutzen kann, wurden seitens OpenAI auch noch keine Kostenmodelle kommuniziert. Ich könnte mir vorstellen, dass es vor allem zwei Möglichkeiten geben wird:

  1. Abo-Modell: Wie auch bei ChatGPT könnte es ein auf monatlicher Basis abgerechnetes Subscription-Modell geben, mit dem Sora vollumfänglich genutzt werden kann.
  2. Pay-per-Use: Bei diesem Modell würden Sie nur das bezahlen, was Sie generieren. Es wird also pro Prompt beziehungsweise Videoergebnis gezahlt.

Welche Bedenken gibt es gegenüber Sora?

Grenzen und Herausforderungen sind das eine – die Fragen nach der Ethik das andere. Denn: Deepfakes gibt es schon jetzt und mit Sora lassen sich auch gänzlich neue fiktive Videos produzieren. Und das mit nur einigen wenigen Sätzen. Logisch also, dass Experten und Expertinnen bereits jetzt über Risiken und die Gefahr der Verbreitung falscher Informationen mittels KI-Videos diskutieren.

In einem Interview hebt Sabrina Heike Kessler vom Institut für Kommunikationswissenschaft und Medienforschung der Universität Zürich diese Zweifel noch einmal hervor: „KI-generierte Videos können Realität und Fiktion ununterscheidbar machen. So haben sie das Potenzial, Fehlinformationen zu verbreiten und damit die Meinungsbildung negativ zu beeinflussen.“

OpenAI griff diese Bedenken bei der Vorstellung von Sora bereits auf. Sogenannte „Red Teamers“ seien damit beschäftigt zu kontrollieren, dass beispielsweise kein Hass- und Fake-Content entsteht. Das Unternehmen arbeitet also aktiv daran, Missbrauch zu verhindern.

Dafür sollen unter anderem neue Tools entwickelt, als auch „bestehende Sicherheitsmethoden“ von Dall-E-3 verwendet werden. Zudem wolle man jeden Prompt auf Eingaben überprüfen, die den OpenAI-Richtlinien widersprechen. Gleiches gilt auch für die generierten Videosequenzen. Auch der EU AI Act, welcher Künstliche Intelligenz europaweit regulieren soll, bildet eine gute Grundlage.

OpenAI schließt seine Ausführungen zum Thema mit der folgenden Aussage ab: „Wir werden mit politischen Entscheidungsträgern, Pädagogen und Künstlern bzw. Künstlerinnen auf der ganzen Welt in Kontakt treten, um ihre Bedenken zu verstehen und positive Anwendungsfälle für diese neue Technologie zu ermitteln.

Trotz umfangreicher Forschung und Tests können wir weder alle positiven Verwendungsmöglichkeiten unserer Technologie vorhersagen, noch alle Möglichkeiten des Missbrauchs. Deshalb glauben wir, dass das Lernen aus der realen Nutzung eine entscheidende Komponente bei der Entwicklung und Freigabe von immer sichereren KI-Systemen ist.“

Neue Dimension der KI-Videos

Ich finde, es ist schon deutlich zu sehen, wie gut Sora als KI-Videogenerator funktioniert. Wenn ich an andere Text-to-Video-Tools wie Lumiere von Google denke, hebt sich Sora davon doch ab. Gerade, was die realistischen Szenen angeht, scheint das OpenAI-Tool hier einen Tick weiter zu sein.

Lumiere, nur wenige Wochen vor Sora veröffentlicht, zeigt allerdings auch schon beachtliche Leistungen. Vergleichen Sie am besten selbst: Das ist das offizielle Launch-Video von Google:

Quelle: YouTube

Einem weiteren KI-Videogenerator, der vor der Veröffentlichung von Sora als einer der besten auf dem Markt galt, ist Runway. Die OpenAI-Lösung ist Runway meiner Meinung nach jedoch einen großen Schritt voraus, wie das folgende Video zeigt:

Quelle: YouTube

Fazit: Verändert Sora die Filmindustrie?

Ich persönlich freue mich schon darauf, wenn Sora für die breite Masse zugänglich wird. Denn: Auch ich bin sehr beeindruckt von dem Tool und möchte es unbedingt mit eigenen Prompts austesten. Die Technologie gibt großen Freiraum für die kreative Freiheit und lässt die Grenzen zwischen Realität und virtueller Welt verschwimmen – das birgt enorme Chancen, auch für Werbetreibende.

Bisher ist, wie auch bei ChatGPT davon auszugehen, dass sich die Video-KI durchsetzt und noch weiter entwickeln wird. Das könnte auch einen Wendepunkt für die Filmindustrie und damit einhergehende Berufe bedeuten. Mit Tyler Perry (unter anderem Regisseur und Produzent) gibt es bereits einen bekannten Player aus der Branche, der eine geplante, 800 Millionen schwere Studioexpansion aufgrund der Sora-Ankündigung pausiert hat.

Perry erzählte dem Magazin Hollywood Reporter außerdem, dass er bereits im vergangenen Jahr Hinweise auf die Entwicklung erhalten hatte – bei der Vorstellung war er dennoch überrascht von der Qualität. Er bezeichnet Sora als „atemberaubend“, außerdem gehe er davon aus, dass KI-Videogeneratoren „jeden Winkel der Industrie berühren könnten“. Dennoch äußerte er als Profi deutlich seine Bedenken, was Sora für die Jobs in der Filmbranche bedeuten könnte.

Wie sich Sora letztendlich entwickelt und welche Auswirkungen folgen, bleibt nur abzuwarten. Eine Veröffentlichung ist ohnehin noch nicht terminiert. Sam Altman wird seine Followerschaft auf X aber sicherlich weiterhin auf dem Laufenden halten und OpenAI wird ebenfalls immer neue Videos veröffentlichen, die mit Sora erstellt wurden.

Kostenloser Download: ChatGPT-Playbook

 Kostenloser Download: ChatGPT-Playbook

Titelbild: HubSpot

Ursprünglich veröffentlicht am 6. März 2024, aktualisiert am März 06 2024

Themen:

Künstliche Intelligenz