In letzter Zeit stößt man häufiger auf sie: Künstliche Intelligenz(en), die "automatisch" Bilder generieren oder Texte verfassen. Funktioniert das wirklich, was steckt dahinter und wofür kann man es nutzen?
Vorbemerkung
Die erste Frage will ich gleich beantworten: Ja, es funktioniert - und in gewissen Grenzen sogar ganz erstaunlich gut.
Die "üblichen Verdächtigen" in diesem Zusammenhang sind "DALL-E" für die Bildgenerierung und "ChatGPT" zum Erstellen von Texten. Obwohl beide erst seit Ende letzten Jahres allgemein zugänglich sind, haben sie schon für viel Gesprächsstoff gesorgt. Was ist überhaupt KI, wie kommen die generierten Bilder zustande? Kann ich solche Ergebnisse einfach so nutzen? Was sind das denn für Texte, die da erzeugt werden - haben die Hand und Fuß?
Nun, dieser Artikel soll helfen, sich selbst ein Bild von diesen Techniken zu machen.
KI steht natürlich für künstliche Intelligenz, oft ist auch von AI (Artificial Intelligence) die Rede. Natürlich steckt hier auch ein Computerprogramm dahinter, aber eben eine spezielle Sorte. KI ist ein Teilgebiet der Informatik, das sich mit der Automatisierung intelligenten Verhaltens befasst - damit verknüpft ist maschinelles Lernen. Von KI redet man also immer dann, wenn Lösungen zu Problemen nicht aufgrund eines programmierten Lösungswegs gefunden werden, sondern ein neuronales Netz im Spiel ist, das vorher trainiert wurde. Ein neuronales Netz simuliert die Vorgänge im Gehirn: die Verknüpfung von Neuronen. Dadurch kann das System komplexe Muster erlernen, ohne genau für diesen Zweck programmiert worden zu sein - ja sogar, ohne die entsprechenden "Regeln" zu kennen. Stattdessen müssen neuronale Netze trainiert werden. Sie erhalten einen Input, verarbeiten diesen, dies führt zu einem Output, der dann bewertet wird.
Bildgenerierung: DALL-E sowie dreamstudio und stablediffusion
Genau genommen sind wir zur Zeit (Mitte Februar '23) bei DALL-E2, dem Bildgenerator unter openai.com. Die Entwicklung dieses Systems wurde unter anderem von Microsoft und Elon Musk unterstützt. Um openai.com, das außer DALL-E noch ChatGPT zur Verfügung stellt, zu nutzen, müssen Sie sich einmalig registrieren.
DALL-E generiert Bilder aus Beschreibungen ("prompts"). Wenn Sie sich angemeldet haben, sehen Sie gleich einige Beispiele. Die "Ideen" zu den Bildern holt sich der Generator aus dem Netz ("hat sich geholt" sollte man besser sagen). Das System hat sich alle (frei zugänglichen?) Bilder samt Beschreibungen dazu, die es gefunden hat, angeschaut und bestimmte Schlüsse daraus gezogen. Nun kann es eben Beschreibungen in Bilder umsetzen. Das Teaser-Bild aus diesem Artikel entstand aus dem Text "artificial intelligence, thinking". Das System generierte also dieses hier:
Nicht besonders überzeugend? Fand ich auch. Mein nächster Versuch bezog sich auf den gerade verstorbenen Ausnahmegitarristen Jeff Beck: "Ein Bild von Jeff Beck im Stil von Rembrandt" brachte dieses Ergebnis, das mir schon deutlich besser gefällt:
Zu Barack Obama und anderen Politikern wollte mir das System keine Bilder generieren und begründete dies auch mit potentiellem Missbrauch.
Auch kompliziertere Prompts ergaben ansprechende Ergebnisse (diesmal mit dreamstudio): "a photographer in front of a landscape with an ef 85 1.4" (letzteres ist ein bestimmtes Objektiv) brachte dieses Ergebnis (siehe Bild rechts).
Wenn man genau hinschaut, sieht man aber hier einige Fehler in der Kameradarstellung. Die "künstliche Intelligenz" setzt das Bild wohl aus bestimmten Elementen zusammen - und da "passt" nicht immer alles ganz genau.
DALL-E sowie stablediffusion und auch dreamstudio generieren übrigens immer 4 Bilder auf einmal, die man auch einzeln weiterbearbeiten kann.
Auch die Ergebnisse von stablediffusion können sich sehen lassen, wie das Bild links zeigt. (Stablediffusion hat übrigens wohl als Basis LAION-5B, eine Datenbank aus knapp 6 Milliarden Bild-Text-Paaren.)
Hier war die besondere Herausforderung die Anforderung "photorealistic" im Prompt. Am besten scheint mir das im Bild rechts oben realisiert worden zu sein, links oben und rechts unten haben einen leichten "gemalt"-Touch - das Bild links unten meiner Meinung nach sogar recht deutlich.
Grundsätzlich gilt: je umfangreicher und präziser der Prompt das gewünschte Bild beschreibt, umso besser wird das Ergebnis - das gilt für alle Generatoren.
(Das Problem mit dem Fotografen-Bild rührt sicher auch daher, dass der Generator das "EF 85 1.4" interpretieren musste: Was war denn gemeint? Die Verwendung dieses Objektivs durch den abgebildeten Fotografen oder eine Darstellung, die einer Fotografie mit diesem Objektiv entspricht?)
Textgenerierung: ChatGPT
Dieser Generator hat in seinem bisher kurzen Leben (auch etwa seit November '22 öffentlich zugänglich) schon einen Riesen-Hype in den Medien verursacht. Er basiert auf einem "Sprachmodell" genannten System namens GPT3. Tatsächlich werden solche Modelle schon verwendet: Für Zusammenfassungen sowohl im wissenschaftlichen wie auch im Medien-Bereich, zum Generieren von FAQs oder zum Verfassen von Werbetexten - und sicher vielem mehr.
Ein kleines Beispiel, sicher ausreichend für viele Zwecke:
Im Bildungsbereich sorgte das System erst einmal für Entsetzen: "Kann man den jetzt keine Aufgaben mehr wie bisher stellen?" war eine Frage, die in Schulen und Universitäten häufig gestellt wurde.
Teilweise ist diese Frage sicher berechtigt. Hier ein Beispiel - bitte beachten, dass Prompt und Ausgabe in Deutsch verfasst sind!
ChatGPT hat einen "Wissensstand", der auf Ende 2021 basiert. Was danach passiert ist, "weiß" das System nicht (Stand: 2/23). Es ist erstaunlich, was man sich von dem System generieren lassen kann: Gedichte zu praktisch beliebigen Themen, Reden für bestimmte Anlässe usw. (Angeblich kann es bei wissenschaftlichen Anfragen passieren, dass ChatGPT nicht-existierende Quellen angibt.)
Damit aber nicht genug: Ich stellte die Aufgabe, einen Bubblesort-Algorithmus in Delphi zu programmieren - wurde problemlos erledigt.
Auch Skripte in PHP oder anderen Sprachen kann das System auf Anforderung verfassen - verlangt man zum Beispiel ein Demo-Programm für eine bestimmte Programmiersprache wird einem - wie auch in obigem Beispiel ersichtlich - die Programmiertechnik sogar erläutert.
Man kann mit ChatGPT auch eine weitergehende Kommunikation führen. Zum Beispiel lässt das System zu, zu einem Beispiel nachzufragen oder um mehr Genauigkeit zu bitten. Solange man keinen "neuen Chat" aufmacht, "weiß" ChatGPT, dass sich die Fragen auf die vorherige Kommunikation bezieht.
Fazit und Einordnung
Das sind sicher faszinierende Möglichkeiten, die sich hier ergeben. Microsoft möchte zum Beispiel ChatGPT in Bing (ihrer Suchmaschine) integrieren. Google hat letzten Donnerstag eine Konkurrenz-KI namens "Bard" herausgebracht. Noch findet die gesamte Kommunikation auf schriftlichem Weg statt - aber eine Sprach-Ein- und -Ausgabe wird sicher nicht allzu lange auf sich warten lassen.
Wie steht es um das Urheberrecht an den generierten Bildern und Texten? Nun, die Quellen, die für das Training mit den Bildern genutzt wurden, können im Extremfall dazu führen, dass plötzlich Ihr Bild mitverarbeitet wurde. Es gibt schon einige Klagen - meistens vor US-Gerichten - die sich auf solche und ähnliche Fälle beziehen. Ein Urheberrecht auf ein solches Bild oder einen generierten Text kann wohl - nach der momentan vorherrschenden Meinung - niemandem zugesprochen werden.
OpenAI arbeitet an einem Netz, das computergenerierte Texte erkennen soll - bisher ist die Erfolgsrate aber nicht besonders groß.
Schulen und Universitäten werden sicherlich vor neue Herausforderungen gestellt. Andere werden finden, dass einem ein solches System das Leben echt einfacher machen kann.
Ich bin einmal auf die langfristigen Folgen solcher Systeme gespannt. Die Einführung von Taschenrechnen hat bei Schülerinnen und Schülern meiner Meinung nach dazu geführt, dass viele das "Schätzen" verlernt haben und so eine (erste) Plausibilitätskontrolle bei zum Beispiel mathematischen Problemen oft entfällt. Was wird als nächstes entfallen?