Wie funktioniert eigentlich ChatGPT?

ChatGPT & Co. – das 8. Weltwunder?

ChatGPT ist ein beeindruckendes KI-Modell, das erstaunliche Fähigkeiten zur Textgenerierung bietet.

Für mich persönlich ist ChatGPT & Co. fast so etwas wie das 8. Weltwunder – auch wenn das vielleicht ein wenig dramatisch klingt.

Doch wie funktioniert ChatGPT eigentlich unter der Haube? In diesem Blogbeitrag erkläre ich die Funktionsweise des KI-Modells sowie seine Stärken und Schwächen auf leicht verständliche Weise.

ChatGPT steht für ein KI-gestütztes Sprachmodell, das auf der Generative Pre-trained Transformer (GPT)-Technologie basiert und speziell entwickelt wurde, um natürliche und kontextbezogene Unterhaltungen zu führen.

ChatGPT funktioniert prinzipiell wie eine fortschrittliche Textvervollständigung, ähnlich der Autovervollständigung auf deinem Handy – jedoch wesentlich leistungsfähiger.
Anders als einfache Modelle, die oft auf Markov-Ketten basieren, nutzt ChatGPT den Transformer-Algorithmus, der große Textmengen analysiert und kontextbezogene Antworten generiert.
Dieser Algorithmus, der 2017 im bahnbrechenden Paper „Attention Is All You Need“ von Google Research vorgestellt wurde, brachte den entscheidenden Durchbruch in der KI-Textverarbeitung.

OpenAI veröffentlichte technische Details nur bis einschließlich GPT-3, während spätere Modelle auf Basis unbestätigter Schätzungen und Hochrechnungen aus den vorherigen GPT-Modellen analysiert werden.

Ich werde dennoch einige Zahlen nennen, damit du eine grobe Vorstellung bekommst.

Grundlagen: Tokens und Texte

Wenn du etwas in ChatGPT eingibst, wird dein Text zunächst in kleine Einheiten zerlegt, sogenannte Tokens. Ein Token kann ein Buchstabe, ein Teil eines Wortes oder sogar ein Satzzeichen sein. Zum Beispiel:

1 Token ≈ 4 Zeichen (z. B. „Chat“ oder „GPT“).
100 Tokens ≈ 75 Wörter.

Das Modell verarbeitet den Text also nicht direkt als Worte, sondern als (numerische) Tokens.

Die Architektur: Nur ein Decoder

ChatGPT basiert auf einer sogenannten Transformer-Architektur, die ursprünglich aus zwei Hauptbestandteilen besteht:

Encoder: Verarbeitet Eingaben.
Decoder: Generiert Ausgaben.

ChatGPT nutzt jedoch nur den Decoder, um Eingaben zu verstehen und Antworten zu generieren. Der Decoder arbeitet mit einem Mechanismus namens Self-Attention, der sicherstellt, dass der Kontext deines gesamten Textes berücksichtigt wird – jedes Token wird dabei in Beziehung zu allen anderen Tokens gesetzt.

Wie wird der Text verarbeitet?

Der Prozess beginnt mit den Embeddings. Embeddings sind technisch gesehen eine Art multidimensionale Vektoren – also Zahlen, denn Computer arbeiten schließlich mit Zahlen. Jeder Token wird in eine mathematische Darstellung umgewandelt, die seine Bedeutung und Position im Text codiert. Zum Beispiel könnte das Wort ‚Katze‘ durch Zahlen wie [0.5, 0.7] dargestellt werden, wobei die erste Zahl für ‚Tier‘ und die zweite für ‚Haustier‘ steht. Diese Vektoren ermöglichen es dem Modell, Bedeutungen und Zusammenhänge zu erkennen. GPT-4 wird auf eine Embedding-Dimension (mathematische Tiefe) von etwa 16.384 geschätzt.

Diese Embeddings durchlaufen mehrere sogenannte Transformer-Blöcke, die den Kontext und die Bedeutung jedes Tokens anreichern. Transformer-Blöcke sind wie die Schichten eines neuronalen Netzwerks und helfen dabei, den Text Schritt für Schritt besser zu verstehen. GPT-4 verfügt geschätzt über mehr als 120 solcher Blöcke (Schichten).

Zusätzlich durchläuft jeder Transformer-Block mehrere Attention-Köpfe. Diese Köpfe sind parallele Mechanismen innerhalb des Self-Attention-Systems. Jeder Kopf analysiert verschiedene Aspekte der Beziehungen zwischen Tokens. Zum Beispiel:

Ein Kopf könnte den grammatikalischen Zusammenhang zwischen einem Pronomen und einem Subjekt im Satz analysieren.
Ein anderer Kopf könnte sich darauf konzentrieren, welche Wörter in einem Satz die Kernaussage tragen.

Ein vereinfachtes, anschauliches Beispiel ist das Wort „Bank“. Jeder Attention-Kopf analysiert einen anderen Aspekt des Textes:

Kopf 1: Erkennt, dass „Bank“ im Kontext eines Finanzinstituts steht („Ich gehe zur Bank“).
Kopf 2: Prüft, ob „Bank“ eine Sitzgelegenheit meint („Ich saß auf der Bank“).
Kopf 3: Untersucht die grammatikalische Beziehung, z. B. zum Verb im Satz.
Kopf 4: Achtet auf den globalen Kontext, um weitere Bedeutungen auszuschließen.

Man könnte es sich vorstellen wie ein Team von Experten, bei denen jeder Kopf eine eigene Perspektive einbringt, um den Text besser zu verstehen.
GPT-4 verfügt geschätzt über mehr als 128 Attention-Köpfe.

Das passiert in den Transformer-Blöcken

Analyse der Tokens im Kontext:
Jeder Token wird im Zusammenhang mit allen anderen Tokens im Kontextfenster analysiert. Dies geschieht durch den Self-Attention-Mechanismus, der Verbindungen zwischen den Tokens herstellt.
Beziehungen herstellen:
Der Self-Attention-Mechanismus setzt jedes Token in Beziehung zu allen anderen, um sicherzustellen, dass sowohl lokale als auch globale Abhängigkeiten im Text berücksichtigt werden.
Parallele Verarbeitung der gesamten Sequenz:
Die gesamte Eingabesequenz (bis zur Größe des Kontextfensters) wird gleichzeitig verarbeitet. Dadurch können alle Tokens parallel analysiert werden.
Schrittweise Anpassung der Embeddings:
Die Embeddings werden in jedem Block weiter verfeinert. Sie enthalten zunehmend mehr Informationen über die Bedeutung und den Kontext der Tokens.
Effiziente Nutzung der Kontextgröße:
Die maximale Größe des Kontextfensters (z. B. bis zu 32.768 Tokens bei GPT-4) definiert, wie viele Tokens gleichzeitig verarbeitet werden können. Nach dem letzten Transformer-Block bleibt die Sequenz der Tokens gleich, aber ihre „Informationsebene“ wurde stark verfeinert.

Die Magie des Outputs

Am Ende des Prozesses kommt der lineare Transformationsteil ins Spiel. Hier wird aus den komplexen mathematischen Embeddings ein konkretes Ergebnis erzeugt:

Lineare Transformation:
- Die verarbeiteten Embeddings werden in ein Vokabular mit über 50.000 Tokens (Wörter, Zeichen, etc.) übersetzt.
- Jedes Token im Vokabular erhält eine Wahrscheinlichkeit, wie gut es in den Text passt. Diese Werte werden als Logits bezeichnet.
Token-Auswahl:
- Das Token mit der höchsten Wahrscheinlichkeit wird als nächstes ausgewählt.
- Hier kommt der sogenannte „Temperatur-Parameter“ ins Spiel: Er legt fest, ob die KI zuverlässige Antworten bevorzugt oder auch ungewöhnlichere, kreative Wege einschlägt.

Wie entstehen längere Texte?

Sobald ein neues Token ausgewählt wurde, wird es zum Eingabetext hinzugefügt, um den nächsten Schritt zu starten. Doch ChatGPT nutzt dabei eine clevere Methode:

Bereits berechnete Zustände wiederverwenden: Statt den gesamten Text jedes Mal neu zu verarbeiten, berücksichtigt das Modell die früheren Berechnungen und verarbeitet nur das neue Token. Das spart enorm viel Rechenleistung.

Einfache Zusammenfassung

Dein Text wird in Tokens zerlegt und durch Transformer-Blöcke geschickt.
Diese Blöcke verfeinern die Bedeutung jedes Tokens basierend auf dem Kontext.
Der finale Schritt wählt das nächste Token aus, basierend auf Wahrscheinlichkeiten.

Das Ergebnis ist ein flüssiger und meist sinnvoller Text, der auf deiner Eingabe basiert!

Wichtige Fakten und Grenzen von ChatGPT

ChatGPT ist ein beeindruckendes Werkzeug, aber es gibt einige technische Begrenzungen und wichtige Punkte, die du beachten solltest:

Begrenztes Kontextfenster: Das Modell kann nur eine bestimmte Anzahl von Tokens gleichzeitig im „Gedächtnis“ behalten – bei GPT-3.5 sind es 4.096 Tokens (ca. 3.000 Wörter), bei GPT-4 bis zu 32.768 Tokens (ca. 24.000 Wörter). Wenn diese Grenze erreicht wird, werden ältere Teile des Gesprächs oder der Eingabe einfach „vergessen“.
Kein Echtzeit-Wissen: Der Wissensstand des Modells endet zu einem bestimmten Datum (z. B. September 2021 in GPT-4), da das Modell auf Daten trainiert wurde, die nur bis zu diesem Zeitpunkt verfügbar waren. Nach dem Training erfolgt keine automatische Aktualisierung des Wissens.
Mögliche Fehler: ChatGPT basiert auf Wahrscheinlichkeiten und Mustern und kann daher falsche oder ungenaue Antworten liefern. Es ist keine perfekte Wissensdatenbank, weshalb wichtige Informationen stets überprüft werden sollten.
Kein Langzeitgedächtnis: Das Modell speichert keine Informationen über einzelne Sitzungen hinaus. Jede Unterhaltung ist eigenständig und hat keinen Bezug zu früheren Gesprächen.
Verzerrungen aus Trainingsdaten: ChatGPT reflektiert die Muster der Daten, mit denen es trainiert wurde, was zu unbeabsichtigten Vorurteilen oder Verzerrungen in den Antworten führen kann.
Temperatur und Kreativität: Die Einstellungen beeinflussen, wie konservativ oder kreativ die KI bei der Textgenerierung ist. Je nach Anwendungsfall kann das zu überraschenden Antworten führen.

Die Bedeutung von Prompts

Die Qualität der Eingaben (Prompts) ist entscheidend für die Ergebnisse mit ChatGPT. Wichtig ist, dass Prompts klar und flüssig formuliert werden, da Stichworte oder unstrukturierte Eingaben oft zu weniger präzisen Antworten führen. Ein flüssiger, vollständiger Satz hilft dem Modell, den Kontext besser zu verstehen und gezielte Antworten zu geben.

Statt „Erkläre Regen“ besser: „Kannst du mir erklären, wie Regen entsteht und welche Rolle der Wasserkreislauf dabei spielt?“

Wer die Funktionsweise von ChatGPT kennt, kann durch präzisere Prompts relevantere, kreativere und insgesamt hochwertigere Ergebnisse erzielen.

Bessere Prompts dank 10-Finger-System?

Das 10-Finger-System ist dabei eine große Hilfe: Gute Prompts erfordern oft viel Tipperei – eigentlich die perfekte Gelegenheit, um sich das 10-Finger-System anzueignen.

Schnell und einfach 10 Finger schreiben lernen