175 Milliarden
Als ChatGPT 3.5 im November 2022 öffentlich zugänglich wurde, sorgte vor allem eine Eigenschaft für Verblüffung: Die KI benutzte Sprache (fast) wie ein Mensch. Mindestens 175 Milliarden Parameter steuerten im Hintergrund, welche Antworten die KI in ihrer ersten öffentlichen Version gab. Die aktuelle Version 4 verfügt noch einmal über deutlich mehr Parameter, Schätzungen gehen bis zu einer Billion hoch. Wie genau funktionieren diese numerischen Stellschrauben eigentlich?
Auch wenn sich ChatGPT & Co. zu fast jeder Frage äußern können, sind die KI-Assistenten eigentlich nur in einer Sache richtig gut: Sprache produzieren. Die sogenannten Großen Sprachmodelle oder Large-Language-Models (LLMs) kombinieren Wörter und Wortbestandteile so geschickt, dass ihre Äußerungen wie das Ergebnis von Denkprozessen wirken. In Wahrheit imitieren sie nur die Denkleistung derjenigen, mit deren Texten die KI trainiert wurde.
Damit das gelingt, durchlaufen LLMs vier Schritte. Im dritten Schritt kommen die Parameter zum Einsatz.
Tokenisierung:

tiktokenizer.vercel.app
Text wird in kleinere Einheiten zerlegt, das können Wörter sein, aber auch nur Wortteile. Anschließend wird jedes Token in eine ID umgewandelt. Die Website „Tiktokenizer“ zeigt, wie Sprache in Tokens zerlegt und in IDs umgewandelt wird.
Einbettung (Embedding)

projector.tensorflow.org
Jedes Token wird in einen Vektor im mehrdimensionalen Raum übersetzt. Mit ihrer Hilfe sortiert die KI Tokens: ähnliche Vektoren liegen nah beieinander – als Maß dafür dient die „Kosinus-Ähnlichkeit“. Der „Embedding Projector Tensorflow“ zeigt mit einer vereinfachten Visualisierung, welche Begriffe besonders nah beieinander liegen.
Vorhersage:

abbozza.informatik.uni-osnabrueck.de/abbozza/neural-online/neuron
Dieser Schritt ist das Herzstück in der Arbeitsweise von künstlicher Intelligenz, die auf dem – heute dominanten – Transformer-Modell basiert. Durch eine Vielzahl sogenannter „Hidden Layers“ hinweg berechnet die KI, wie die bestmögliche Antwort auf eine Anfrage lauten könnte.
Dabei multiplizieren unzählige „Neuronen“ die Vektoren mit zwei verschiedenen Arten von Parametern – Gewichtsmatrizen und „Biases“. Das sind beim Training der KI gelernte statistische Regelmäßigkeiten, die darüber entscheiden, welche Kombinationen von Eingabemustern verstärkt oder abgeschwächt werden müssen, um zur bestmöglichen Antwort zu gelangen.
Beispiele für Neuronen bietet OpenAI in seinem „Neuron Viewer“ – hier sind unter anderem Textbeispiele zu finden, die bestimmte Neuronen besonders stark aktivieren. Wichtig zu wissen: Auf diese Weise analysieren KIs wie ChatGPT nicht nur die Sachinformationen einer Anfrage, sondern können in gewissem Sinn auch zwischen den Zeilen lesen und zum Beispiel Ironie oder emotionale Signale in Prompts „erkennen“.
Dekodierung:

towardsdatascience.com/the-power-of-constrained-language-models-cf63b65a035d/
In diesem Schritt generiert die KI ihre Antwort auf einen Prompt. Aus der Wahrscheinlichkeitsverteilung über alle möglichen nächsten Tokens wählt sie die besten „Kandidaten“ aus. Dafür nutzt sie verschiedene Strategien. Beim „Greedy Decoding“ etwa gibt sie das wahrscheinlichste Token aus. Beim „Sampling“ hingegen wählt sie eines aus einer gewichteten Verteilung – dafür stehen verschiedene Sampling-Strategien zur Verfügung.

