Sind wir bereits im Zeitalter der allgemeinen künstlichen Intelligenz angekommen? Für Prof. Dr. Björn Ommer, einen der führenden Köpfe hinter der Bild-KI Stable Diffusion, ist die Antwort eindeutig: ja. In einem ausführlichen Interview mit dem Format Everlast AI erklärt der Informatikprofessor der LMU München, warum Foundation Models wie GPT oder multimodale Systeme schon heute als generelle Intelligenz gelten können – und was das für unsere technologische Zukunft bedeutet.
Ommer war die treibende Kraft hinter Stable Diffusion, jenem Open-Source-Modell, das 2022 eine globale Welle der Innovation in der KI-gestützten Bildgenerierung auslöste. Sein Ansatz: Bilder nicht länger auf Pixelbasis zu verarbeiten, sondern mithilfe einer sogenannten latenten Repräsentation effizienter zu codieren. Dadurch wurde kreative KI erstmals auf Laptops und sogar Mobilgeräten nutzbar – ein Meilenstein für Demokratisierung und Zugang. Heute nutzen nahezu alle führenden Plattformen und Unternehmen – von Google über Adobe bis Apple – Komponenten dieses Modells, oft ohne dass Nutzer:innen es bewusst wahrnehmen.
Im Gespräch betont Ommer, dass generative KI nicht nur Inhalte erzeugt, sondern zu einer Ermöglichungstechnologie wird – vergleichbar mit Elektrizität oder dem Internet. Sie bilde das Fundament für neue Anwendungen, Industrien und Denkweisen, die weit über die kreative Contentproduktion hinausgehen. Was heute als reines Bild- oder Textmodell genutzt wird, werde bald integraler Bestandteil der Robotik, der Medizin, des Lernens und der Interaktion mit Maschinen.
Kritik, generative KI sei lediglich ein „statistischer Papagei“, weist er entschieden zurück. Die Systeme lernten nicht bloß auswendig, sondern zeigten emergente Fähigkeiten, also Verhalten, das über das Training hinausgehe. So habe Stable Diffusion z. B. gelernt, Schattenwürfe oder Reflexionen korrekt darzustellen – obwohl dies nie explizit trainiert wurde. Diese Fähigkeit zur Interpolation, zum kreativen Brückenschlagen zwischen isolierten Datenpunkten, sei ein Beleg für eine tiefergehende Intelligenz.
Besonders spannend ist Ommers Ausblick auf humanoide Roboter. Er erwartet, dass erste markttaugliche Modelle noch innerhalb dieses Jahrzehnts verfügbar sein könnten – gestützt durch generative KI, die Interaktion, Flexibilität und Sicherheit in der physischen Welt ermöglicht. Anwendungen reichen vom Haushalt bis zur Pflege, vom industriellen Einsatz bis hin zur privaten Assistenz.
Was die vielzitierte AGI betrifft, also die allgemeine künstliche Intelligenz, argumentiert Ommer, dass diese nicht als fernes Zukunftskonstrukt verstanden werden sollte. Bereits heute zeigen Foundation Models eine Bandbreite an Fähigkeiten über Disziplinen hinweg, die sie von klassischer Nischenintelligenz deutlich unterscheiden. Der Begriff müsse entmystifiziert werden: Es gehe nicht darum, ob AGI irgendwann „magisch“ auftaucht, sondern wie breit und qualitativ hochwertig bestehende Systeme bereits jetzt agieren können.
Auch zum Thema Jobverluste durch KI hat Ommer eine differenzierte Sicht. Die Technologie sei nicht dazu gedacht, Menschen zu ersetzen, sondern sie zu entlasten – vor allem bei repetitiven Aufgaben. Gleichzeitig entstünden ganz neue Märkte, Berufsfelder und Geschäftsmodelle, die heute noch gar nicht absehbar seien. Wer sich nur auf das konzentriere, was durch KI wegfalle, verpasse den weitaus spannenderen Teil: das, was durch sie erstmals möglich wird.
Besonders kritisch sieht er die aktuelle Interaktion mit KI über Textprompts. Diese sei vergleichbar mit der frühen Computernutzung über Kommandozeilen – funktional, aber nicht benutzerfreundlich. Die Zukunft liege in intelligenten Anwendungen, die personalisiert, intuitiv und selbstständig arbeiten. Ommer prognostiziert: In wenigen Jahren werden wir nicht mehr mit KI sprechen müssen, sie wird proaktiv mitdenken – und in vielen Fällen wissen, was wir brauchen, bevor wir es selbst formulieren können.


