Foto: AdobeStock/ Kresimir

Warum Künstliche Intelligenz mehr Menschliches enthält, als viele glauben.

KI- Anwendungen wie ChatGPT oder das Bildgenerierungstool Midjourney beeindrucken durch die Qualität ihrer Erzeugnisse. Doch wieviel Menschliches ist in die Entwicklung solcher KI eingegangen? Worin bestehen ihre Erfolgsrezepte und wie wird die KI trainiert?

Ein Blick in die Kunstgeschichte zeigt, dass das Prinzip des Lernens durch Nachahmung keineswegs neu ist. In der Malerausbildung an der Düsseldorfer Kunstakademie unter Wilhelm Schadow war es im 19. Jahrhundert üblich, jahrelang alte Meister zu kopieren – so lange, bis man die Kopie kaum noch vom Original unterscheiden konnte.

Nach einem ähnlichen Prinzip funktionieren sogenannte Generative Adversarial Networks (kurz: GAN). Dabei handelt es sich um eine spezielle Form künstlicher Intelligenz, die aus zwei künstlichen neuronalen Netzwerken besteht: einem sogenannten „Generator“ und einem „Diskriminator“.

Jetzt wird’s etwas mathematisch. Der Diskriminator ist ein künstliches neuronales Netz, das auf Bildverarbeitung spezialisiert ist. Sein Job: entscheiden, ob ein Bild echt ist oder vom Generator erzeugt wurde. Technisch betrachtet ist das eine Funktion, die aus den Bilddaten (also einer Matrix aus Pixelwerten) einen Wert berechnet – 1 für ein echtes Bild, 0 für eine Fälschung. Zum Einsatz kommen hier meist sogenannte Convolutional Neural Networks (CNN) – Netze, die die menschliche Wahrnehmung nachahmen. Sie filtern Bildinformationen nach bestimmten Merkmalen, ähnlich wie das Auge Linien, Kontraste oder Formen erkennt.

Dass CNN heute so leistungsfähig sind, verdanken sie bahnbrechenden Ideen, die bereits Ende der 1990er-Jahre entwickelt wurden. Schon 1989 wusste man zwar, dass klassische künstliche neuronale Netze (ANN) mit nur einer Zwischenschicht  grundsätzlich in der Lage sind, beliebige Zusammenhänge in Daten zu erkennen – zumindest theoretisch. In der Praxis waren diese Modelle jedoch zu schwerfällig und unflexibel.

Ein zentrales Problem: Klassische Netze konnten wichtige Bildmerkmale nur dann zuverlässig erkennen, wenn sie an exakt derselben Stelle im Bild auftauchten. Ein Stopp-Schild wurde zum Beispiel erkannt, wenn es genau in der Mitte lag – aber nicht, wenn es leicht verschoben war.

Durch CNN konnte die ortsunabhängige Erkennung von Bildmerkmalen realisiert werden – ein zentrales Problem früherer Netzarchitekturen wurde damit gelöst. Genau das machte den Durchbruch in der Bildverarbeitung möglich.

Realistische Bilder

Der Generator beginnt seine Arbeit mit einem zufällig gewählten X-Vektor – vereinfacht gesagt: einem Zahlenbündel, das dazu dient, den Raum möglicher Bilder zu durchmessen. Auch hier gilt es, eine Funktion zu lernen: Jedem X wird ein Y zugeordnet – eine Matrix aus Pixelwerten, also ein künstlich erzeugtes Bild.

Das Training erinnert an die Düsseldorfer Malerschule: Der Generator übernimmt die Rolle des Studenten, der – angestoßen durch den X-Vektor – versucht, möglichst realistische Kunstwerke zu erschaffen. Der Diskriminator spielt den Kunstprofessor, der prüft, ob das Bild ein Original oder eine Fälschung ist. In diesem Nullsummenspiel lernt der Generator nach und nach, die Erwartungen seines Gegenübers zu erfüllen – bis er Bilder erzeugt, die von echten kaum noch zu unterscheiden sind. Am Ende steht eine generative Funktion y(x), die aus jedem beliebigen X-Vektor ein überzeugendes Bild berechnet. Mit diesen X-Vektoren lässt sich übrigens auch kreativ arbeiten – wie etwa die KI-Anwendung Midjourney zeigt.

Lücke mit System

Die Textgenerierung erlernt ein Large Language Model (LLM) wie ChatGPT auf ähnliche Weise. Wieder ist die Lehrmethode menschlich und erinnert an Lückentextaufgaben aus dem klassischen Schulunterricht. Vorgegeben ist ein lückenhafter Text X, bei dem das passende Wort zu bestimmen ist. Hier wird nun kein GAN benötigt, weil bereits klar ist, wie die richtige Antwort ist – nämlich das weggelassene Wort. Damit kommt hier nur ein neuronales Netz zum Einsatz.

Um ein Sprachmodell wie ein LLM in einer bestimmten Sprache zu trainieren, wählen die Entwickler gut geschriebene Texte in genau dieser Sprache aus – etwa Wikipedia-Artikel oder andere hochwertige Textsammlungen. Das Training erfolgt nach einem einfachen Prinzip: Man gibt dem Modell zum Beispiel 1000 Wörter vor (X) und lässt es das tausendundeinste Wort vorhersagen. Die tatsächliche Lösung ist bekannt, weil der Text vollständig vorliegt – das macht es zu einem Fall von überwachtem Lernen. Auch hier lernt das Modell eine Funktion Y von X, also eine Regel, mit der es aus dem bisherigen Text das nächste Wort ableitet. Soll das Modell nur ein grundlegendes Sprachverständnis entwickeln – zum Beispiel kindgerechte Sprache oder einfache Satzstrukturen – können die Entwickler das Training gezielt auf vereinfachte Texte wie Kinderbücher beschränken.

Damit ein Text überhaupt vom Modell verarbeitet und erlernt werden kann, muss er zunächst in Zahlen übersetzt werden – dieser Schritt wird Vektorisierung genannt. Vereinfacht gesagt: Man zählt alle Wörter im Textkorpus durch und ersetzt jedes Wort durch eine eindeutige Zahl. Wenn ein Text mit dem Wort „Hallo“ beginnt – und „Hallo“ war beim Zählen das 123. Wort im Vokabular, dann beginnt der Eingabevektor mit 123. Das Modell bekommt beispielsweise 1000 aufeinanderfolgende Wörter als Eingabe (X) – und soll daraus das darauffolgende, also das 1001. Wort (Y) vorhersagen. Da dieses Wort aus dem Originaltext bekannt ist, kann man die Vorhersage mit der echten Lösung vergleichen – und das Modell dann schrittweise verbessern. AuchChatGPT wurde auf diese Weise trainiert. Entscheidend für die Qualität solcher großen Sprachmodelle war jedoch ein Durchbruch im Jahr 2014: Der sogenannte Aufmerksamkeitsmechanismus (Attention) ermöglichte es, den Kontext präziser als zuvor möglich zu erfassen und fein abgestimmt in die Vorhersage einfließen zu lassen.

Die Maschine hat immer Lust

Ob Bild oder Text – beide Anwendungsbereiche der KI orientieren sich an menschlichen Lernprozessen. Entscheidend ist jedoch: Nur was sich mathematisch ausdrücken lässt, kann von der Maschine verarbeitet werden. Sobald eine Aufgabenstellung in Zahlen, Vektoren oder Funktionen gefasst ist, kann die KI ihre Stärken  ausspielen – und den Menschen mitunter überholen.

Motivationale Probleme kennt die Maschine nicht. Sie ist eine nimmermüde Schülerin, solange der Strom fließt. Zudem kann sie Wiederholungszahlen leisten, die für Menschen unmöglich sind.

Menschen, die KI als effizienzsteigernd in ihren Arbeitsalltag integrieren, verschaffen sich einen Vorsprung im digitalen Wandel, ob Künstler, die Midjourney als Ausgangsbasis nutzen, oder Hautärzte, die sich durch CNN bei der Hautkrebsfrüherkennung unterstützen lassen.

Wer KI konsequent meidet oder, schlimmer noch, Betriebsgeheimnisse preisgibt, indem er vertrauliche Dokumente von Tools wie ChatGPT überarbeiten lässt – wird es sowohl auf dem Arbeitsmarkt als auch vor Gericht schwer haben. Ein grundlegendes Verständnis von KI wird in Zukunft zweifellos zu den entscheidenden Erfolgsfaktoren gehören.

FOM

Pin It on Pinterest