Vorbemerkung
Schon im Februar vorigen Jahres habe ich in Frankfurt einen Vortrag über bestimmte Aspekte von KI gehalten ("Bild- und Textgenerierung") und auch einen Artikel dazu geschrieben. Danach habe ich mich damit befasst, was die künstliche Intelligenz in der Fotonachbearbeitung so alles leisten kann. Seitdem ist aber so viel an Entwicklung geschehen, dass ich wieder einen Blick auf den aktuellen Stand werfen will. Dieser kann natürlich nicht umfassend sein, vielmehr werde ich mich auf einige - meist eher nicht-professionelle - Aspekte konzentrieren.
Grundlage dieses Artikels ist wieder ein Vortrag in Frankfurt, diesmal im Juni 2024.
Grundlegendes
Zur Zeit haben wir es grundsätzlich mit zwei Typen von KIs zu tun: die eine Sorte ist vom "Chat-Typ", die andere erzeugt Bilder (oder andere multimediale Elemente). Die Chat-KIs (man verzeihe mir diese Bezeichnung) basieren auf LLMs, Large-Language-Models. Sie formulieren ihre Ergebnisse aufgrund von Wahrscheinlichkeiten, wie ein bestimmter Satz weitergeführt werden könnte. Natürlich sind solche KIs (wie übrigens alle!) trainiert - hier gibt es zumindest in den USA schon Prozesse, wenn die KI-Trainer sich zum Beispiel an Texten von Magazinen und Zeitschriften bedient haben, und die entsprechenden Firmen Urheberrechte geltend machen. Manche solcher KIs können "dazu lernen", andere erst einmal nicht.
Unterdessen hat sich eine neue Gruppe von Chat-KIs manifestiert, die "multimodale" LLMs benutzen. Hier können statt Texten auch Bilder oder andere multimediale Materialen als Eingabe verwendet werden.
Auch (Bild-)generierende KIs mussten natürlich trainiert werden. Am liebsten mit Bildmaterial, das auch Beschreibungen enthält. Als Quelle werden meist alle im Internet verfügbaren Bilder genutzt. Auch hier kann es Urheberrechtsprobleme geben. Eine positive Ausnahme ist Adobe, wo die Firma über einen riesigen Fundus von Bildmaterial verfügt und ihre KIs nur mit urheberrechtsfreiem oder -abgelaufenem Material fütterten. Deren Ergebnisse können also auch bedenkenlos kommerziell verwendet werden.
Bedenken Sie bitte auch: Wann immer Sie mit einer solchen KI arbeiten, schicken Sie Ihr Eingabematerial in eine Cloud, auf einen fremden Server. Auch die Ergebnisse werden hier natürlich weiter genutzt. Eine einzige Ausnahme gibt es - dazu unten mehr.
Microsoft und Google
Fangen wir mit Microsoft an - wer Bing als Startseite/Suchmaschine nutzt, hat den Unterschied vielleicht schon bemerkt: Die Seite sieht anders aus und Bing "antwortet" anders als früher. Eine mögliche Instanz der Seite sehen Sie rechts. Das System fordert den Benutzer auf, Fragen zu stellen - das haben viele Leute in Suchmaschinen sowieso schon gemacht, obwohl man da ja eigentlich nach Begriffen suchen lassen sollte.
Die Antwort erfolgt einmal im üblichen Stil einer Liste von passenden Webseiten - aber in der rechten Spalte taucht unter einem neuen Symbol plötzlich ein zeilenweise entstehender Text auf, wie man ihn aus diversen Chat-KIs kennt. Das Symbol (siehe Bild links) ist das Copilot-Symbol von Microsoft, einer KI, die auf Chat-GPT4 basiert. Es ist auch auf der Bing-Seite rechts neben dem Eingabefenster zu sehen, und wenn man daraufklickt, arbeitet man mit der Chat-KI. Allerdings hat sich diese weiterentwickelt: Außer auf Texteingaben reagiert sie unterdessen auch auf hochgeladene Bilder bzw. eine Spracheingabe per Mikrofon. Chat-GPT4 lässt sich sonst nicht kostenlos nutzen!
Den Copilot gibt es unterdessen auch in Microsofts Office 365 - dort ist er allerdings kostenpflichtig und unterstützt einen - nachdem, was man in verschiedenen Publikationen so liest, - außer in Word nur mäßig.
Hat man die Copilot-Seite aufgerufen, werden dem Benutzer noch mehrere spezielle Ausprägungen des Copiloten angeboten. Rechts sehen Sie: den Designer, einen Vacation-Planner, einen Cooking-Assistant und einen Fitness-Trainer. Der Designer basiert auf DALL-E3 und erzeugt Bilder nach Text-, Bild- oder Spracheingaben. Auf dem Frankfurter Treffen gaben wir ihm den Befehl, einen Sonnenuntergang im Taunus fotorealistisch darzustellen. Das Bild rechts zeigt ein Ergebnis einer solchen Anfrage. Im Prinzip fanden die Teilnehmer:innen das ganz schön, bemängelten aber, dass sie im Taunus kein solches Gewässer kennen würden. Nun ja - vielleicht kommt es nur auf die Perspektive an!
Meine eigenen Versuche ergaben im Cooking-Assistant einmal - aber wirklich nur einmal - ein Fehlergebnis. Auf die Anfrage: "Wie richtet man einen Saumagen an?" bekam ich einmal das linksstehende Ergebnis. - unidentifizierbare Wortbruchstücke.
Wie auch weiter unten bei Google muss man für die Nutzung des Copiloten einen Microsoft-Account haben.
Google hatte ja seine KI "Bard" angekündigt - nun: Bard ist tot, es lebe "Gemini"!
Diese KI muss explizit über https://gemini.google.com aufgerufen werden - ein (privater) Google-Account ist wohl nötig. Gemini ist auch als Android-App verfügbar. Auch diese KI verfügt über eine Bild- sowie Spracheingabemöglichkeit und reagiert sehr flott. Die Antworten, zum Beispiel auf den Hinweis: "Ich möchte Französisch lernen" sind sinnvoll und umfassend.
Interessant fand ich hier den ganz untenstehenden Hinweis, man möge doch das Ergebnis einer Anfrage überprüfen - sehr wichtig, ich gehe auf so etwas noch weiter unten ein.
Adobe
Adobe hatte schon eine Weile ein Unterstützungssystem mit Namen "Sensei", das dem Anwender zum Beispiel in Photoshop oder Lightroom bei Korrekturen hilfreich zu Seite stand. Hier basierte dies auch schon auf dem großen Fundus von Adobe-Materialien. Nun hat Adobe "Firefly" vorgestellt - seine generierende KI. Unter https://firefly.adobe.com können Sie diese ausprobieren. Ein kostenloser Adobe-Account aber ist Voraussetzung. Unter obigem Link ist Firefly als Standalone-Anwendung nutzbar, es steht aber zum Beispiel auch in Anwendungen wie Photoshop, Lightroom oder auch Adobe-Apps wie Photoshop-Express zur Verfügung - in letzterer App sogar in gewissen Grenzen kostenlos. Das Generieren von Bildern - oder Bildteilen zum Beispiel in Photoshop - kostet "Credits". Beim kostenlosen Account bekommt man 25 davon, in dem Photoshop-Lightroom-Abo, das ich nutze, gibt es jeden Monat 250, in anderen Abonnements auch mehr. Sind diese verbraucht, kann man natürlich nachkaufen.
Firefly - und Sensei zum Teil auch - laufen "in der Cloud", das heißt, hier werden gegebenenfalls meine eigenen Inhalte zu "Adobe" hochgeladen, um auf deren Servern verarbeitet zu werden. Die Leistung dieses System allerdings ist durchaus bemerkenswert. Im Beispiel hier habe ich ein Pixabay-Portraitbild hochgeladen (siehe Bild links), dann die Arbeitsfläche vergrößert und den vergrößerten Bereich markiert. Klickt man nun die untenstehende Schaltfläche "Generatives Füllen" an, erscheint ein Eingabefeld, in dem man fakultativ den zu generierenden Inhalt beschreiben kann. Klickt man einfach - ohne etwas einzugeben - auf die neue Schaltfläche "Generieren", erscheint das rechte Bild. Es ist aber nur EIN Vorschlag, unten sehen Sie "1/3" mit zwei Pfeilen nach links und rechts - hier kann man durch insgesamt drei Vorschläge scrollen.
Auch in Lightroom kann man die generative KI nutzen - zum Beispiel beim Benutzen eines "KI-Radierers", der die Umgebung analysiert und dann den markierten Bereich durch einen passenden Inhalt ersetzt. Bei unseren Versuchen auf dem RG-Treffen wurden hier um Beispiel Kellerfenster, Mauersimse und andere Applikationen eines Altbaus nach dem "Ausradieren" eines davorstehenden Fahrzeugs perfekt durch passende Gebäudeteile ersetzt.
Eine weitere - jetzt nicht-generative - KI-Anwendung in Lightroom sind "Masken", besonders im Zusammenhang mit "Presets". Im untenstehenden Bild habe ich das Maskentool für das bekannte Portrait ausgewählt und dann im linken Bereich das Preset "Glamouröses Portrait" angeklickt. Die KI analysiert das Bild, und nach einer Weile hat sie - wie rechts zu sehen - sieben Masken generiert, die es mir jetzt erlauben, zum Beispiel Zähne, Pupillen, Augenbrauen, Lippen oder die Gesichtsfarbe einzeln und getrennt voneinander zu bearbeiten.
Auch in der Smartphone-App "Photoshop Express" kann man die generative KI nutzen: Rechts sehen Sie einen Ausschnitt aus der App - darunter ist üblicherweise die lokale Galerie zu sehen. Ein Bild kann - aus einer Beschreibung - komplett neu generiert werden, oder es werden Teile ausgewählt und per "generatives Füllen" mit anderen Inhalten überschrieben.
Lokale KI-Nutzung
Ich hatte es oben schon angedeutet - mit einem halbwegs potenten Rechner kann man eine KI auch lokal betreiben und per Chat befragen. Selbst auf meinem 8 Jahre alten Notebook, das allerdings 16 GB RAM hat, läuft das zufriedenstellen. Nicht so schnell natürlich wie ein Chat mit einer Cloud-KI - aber dafür garantiert ohne Datenweitergabe.
Es gibt hier mehrere Modelle - einfach zu nutzen ist GPT4All (https://gpt4all.io/index.html). Es ist schnell installiert und danach hat man - aus dem Programm heraus - die Möglichkeit, ein oder mehrere LLMs zu laden. Zumindest eines davon ist sogar weiter trainierbar! Die meisten LLMs sind "einfach so" nutzbar, nur für zum Beispiel die open-ai-Modelle Chat GPT3.5 oder 4 benötigt man einen entsprechenden Account. Die zu ladenden Dateien sind zwischen 3 und 9 GB groß - manchmal dauert der Download ein bisschen, dann sollte man es einfach etwa am nächsten Tag wieder probieren.
Auf dem RG-Treffen haben wir dem Llama3-Modell ein paar Fragen gestellt - einen Ausschnitt aus dem Chat sehen Sie hier im Bild.
Unter LocalMind.ai kann man sich einen guten Überblick über verschiedene Modelle verschaffen und sie auf Wunsch auch auf privaten Servern nutzen - und bei Github gibt es ein extrem umfangreiches Modell namens Oobabooga (https://github.com/oobabooga/text-generation-webui), auch für lokale Nutzung.
Halluzinationen und Beweise
KIs - egal welcher Ausprägung - neigen, wenn sie etwas nicht exakt ermitteln können, zum "Halluzinieren" - das heißt, es werden erfundene Inhalt angeboten. Dagegen hilft nur, die angebotenen Ergebnisse auf irgendeine Art zu verifizieren. Natürlich kann es auch beim "Googeln" passieren, dass Webseiten gefunden werden, die nicht-zutreffende Dinge behaupten - aber diese werden nie die einzigen angebotenen Ergebnisse sein. Einige KI-Anbieter reagieren darauf, indem sie Systeme anbieten, die "belegende" Links zu den dargebotenen Ergebnissen präsentieren. Ein schönes Beispiel hierfür ist perplexity.ai. Das Ergebnis meiner Anfrage zum Anrichten von Saumagen erfolgt hier auf die rechts dargestellte Weise. Die Links zu den Quellen werden oben in den kleinen Kästchen angeboten - beispielhaft.
Andere KIs
Außer den Chat- und den Bilder-generierenden KIs gibt es zwischenzeitlich noch eine Menge anderer Möglichkeiten von KI-Nutzung. Hier sollen einige vorgestellt werden.
Unterdessen gibt es einige Webseiten, die geklonte Stimmen anbieten und natürlich auch welche, die es erlauben, die eigene Stimme zu klonen, um dann damit beliebige Texte sprechen zu lassen. Als Basis von Fake-News wird diese Technologie häufig genutzt, wie wir noch sehen werden.
Ein Beispiel hierfür ist elevenlabs.io, bei denen das Klonen der eigenen Stimme allerdings kostenpflichtig ist. Einfach kostenlos ausprobieren können Sie so etwas zum Beispiel bei play.ht (siehe rechtes Bild). Sie können sich hier - wie bei so vielen Beispielen - etwa mit Ihrem Google- oder ähnlichen Account anmelden. Betätigen Sie die Schaltfläche "Generate AI voice for free", sprechen Sie eine kurze Sequenz ein, und lassen Sie sich dann einen beliebigen Text mit der eigenen Stimme vorlesen. Das Ganze hat eine leichten englischen Akzent bei der Aussprache. Es gibt aber auch - allerdings wohl nicht kostenlos - die Möglichkeit, "non-english voices" zu erzeugen.
Ein weiteres großes Feld ist die KI bei der Videonutzung. Hier gibt es Systeme, die aus Einzelbildern kleine Videos erzeugen. Das automatische Generieren von Untertiteln ist heute schon weit verbreitet. In Videobearbeitungsprogrammen wie zum Beispiel DaVinci Resolve gibt es Objektverfolgungen, die es erlauben, Effekte oder Filter auf ein bestimmtes Objekt zu legen, und die dies dann in der ganzen Szene weiterführen, auch, wenn sich das Objekt darin bewegt. Und schließlich sei noch die nachträgliche Bildstabilisierung erwähnt, die es zum Beispiel erlaubt, einen beim Sport gedrehten Film ganz ruhig und ohne die üblichen "Wackler" laufen zu lassen.
Auch generierende KIs gibt es hier - Sora von openai ist momentan die bekanntest Vertreterin dieser Art. Schauen Sie sich einmal die Videos mit den dazu veröffentlichten generierenden Texten unter https://openai.com/index/sora/ an und staunen Sie!
Weitere Beispiele zeigen unter anderem lippensynchrones Vorlesen - generiert aus einem Foto der Sprechers oder der Sprecherin.
Bei immersity.ai können Sie ein eigenes Foto hochladen, verschiedene Effekte testen und die generierten Videos dann herunterladen. Diese Seite analysiert ein Bild auf die Tiefeninformationen und separiert dann zum Beispiel Vordergrund von Mittel- und/oder Hintergrund. Verschiedene voreingestellte Beispiele verschwenken dann das Bild, zoomen hinein oder hinaus oder lassen andere Effekte wirksam werden. Beeindruckend!
Und schon sind wir bei "Deep Fake" - wenn Sie sich nicht vor Tiktok scheuen, können Sie hier ein beeindruckendes Beispiel der vorgestellten Techniken sehen.
Auch KI und Musik lohnt sich unterdessen zu betrachten: Bei youtube können Sie sich einen künstlich erzeugten wie von Nirvana klingenden Song "Drowned in the sun" anschauen/anhören - die Stimme des längst verstorbenen Sängers ist vom Original nicht zu unterscheiden.
Loudly.com produziert Musikstücke aus unterschiedlichsten Genres - sogar die benutzten Instrumente können für die generierten Stücke variiert werden.
Spleeter und splitter.ai erlauben es, aus Musikstücken einzelne Instrumente oder die Stimme zu isolieren, ein Musikstück also in seine Spuren zu zerlegen. Spleeter ist ein Kommandozeilentool, splitter.ai liefert eine komfortablere Möglichkeit.
Auch in aktuellen Kameras ist viel KI enthalten - speziell meine ich die, welche automatisch auf bestimmte Motive scharfstellt. Eine solche Motivverfolgung lässt sich dann auf Menschen, Tiere, Autos, Flugzeuge etc. konfigurieren. Auch lässt sich einstellen, ob - wenn es ein passendes Motiv gibt - auf die Augen scharf gestellt werden soll und diese dann - egal, ob für ein Foto oder Video, - verfolgt werden sollen. Auch das Verhalten bei mehreren Motiven im Bildausschnitt oder beim Auftauchen eines Hindernisses ist konfigurierbar. Meine Kamera zum Beispiel lässt mir die Wahl zwischen verschiedenen "Cases" (siehe Bild links) , die jeweils auf bestimmte Situationen zugeschnitten sind.
Leider können diese KIs nicht lernen - zumindest bisher nicht. Eine Anpassung an neue Motive etc. kann also nur über ein Firmware-Update realisiert werden - was leider relativ selten passiert.
(Deep) Fake
Leider werden die diversen KI-Möglichkeiten auch von Menschen genutzt, die damit unbotmäßige oder illegale Dinge bezwecken. Angeblich ist der bekannte "Enkel-Trick" jetzt auf einem neuen Level, indem beim Anrufen mit einem Stimmen-Klon der tatsächlichen Verwandten gearbeitet wird. Natürlich muss man dazu irgendeine Stimmprobe haben - aber im Zeitalter der Messenger-Telefonie und Voice-Mails ist das unter Umständen gar nicht mehr so schwierig.
In den USA sollen versuchte Wahlbeeinflussungen jetzt mit auf bestimmte Personen - oder zumindest Personengruppen - zugeschnittene "Werbespots" erfolgen.
Gefälschte Reden oder so nicht abgegebene Statements werden in den bekannten sozialen Netzwerken verbreitet - das Scholz-Tiktok-Video weiter oben ist ein eher harmloses Beispiel hierfür.
Furore hat in letzter Zeit gemacht, dass gefälschte Pornoaufnahmen eines amerikanischen Stars - Taylor Swift - verbreitet wurden.
Und schließlich gibt es die bekannten "Trolle" in sozialen Netzwerken, die sich jetzt häufiger als von Russland gesteuerte Bots erwiesen haben, die bestimmte Falschinformationen gezielt und massenhaft verbreiten.
EU-KI-Act
Immerhin hat die europäische Politik nach einer langen Anlaufphase jetzt reagiert und KI-Nutzung in verschiedene Risikoklassen eingeteilt - von "verboten" über "Hochrisiko, unter Voraussetzungen nutzbar" und "begrenztes Risiko" bis "minimales Risiko" und damit sozusagen unpolitisch. Auf dieser Seite können Sie sich näher über die einzelnen Punkte informieren. Verboten sind so zum Beispiel Social-Scoring-Systeme, wie sie unter anderem in China benutzt werden, aber auch anlasslose biometrische Identifizierung von Personen im öffentlichen Bereich.