Wie funktionieren Sprachmodelle wie ChatGPT

Fast jeder nutzt heutzutage Sprachmodelle wie ChatGPT, Claude oder Gemini. Aber kaum jemand weiß, was im Inneren passiert, wenn man auf „Senden“ drückt.

Input Sprachmodell Output

Input rein, Output raus. Was im Modell dazwischen passiert,
bleibt für die meisten unsichtbar.

Der Großteil der Bevölkerung nutzt Chatbots wie ChatGPT. Aber nur weil wir etwas benutzen können, heißt das noch nicht, dass wir verstehen, wieso es uns auf Knopfdruck Kuchenrezepte auswerfen kann. Sogar dann, wenn unsere Anfrage voll von Rechtschreibfehlern ist. Etwas zu benutzen und die Funktionsweise von etwas zu verstehen, sind zwei grundverschiedene Dinge. Dabei kann es für einen kritischen und verantwortungsbewussten Umgang mit Sprachmodellen ein sehr großer Gewinn sein, zu verstehen, womit man es überhaupt zu tun hat. Denn wer nicht versteht, wie ein Sprachmodell zu seinen Antworten kommt, kann auch nur schwer einschätzen, wann man ihm vertrauen kann und wann nicht. Genau da soll dieser Beitrag ansetzen.

Man braucht in erster Linie ein Verständnis der folgenden drei Aspekte:

01

Riesige Datenmengen

Sprachmodelle werden in der ersten Phase, dem sogenannten Pre‑Training, mit gigantischen Mengen an Textdaten gefüttert. Wir sprechen hierbei von Billionen von Wörtern. Und dabei haben die Modelle im Kern nur eine einzige Aufgabe: Sie werden darauf trainiert, basierend auf dem gegebenen Text das statistisch wahrscheinlichste nächste Wort vorherzusagen. Dabei müssen sie am Anfang notwendigerweise erstmal raten. Aber mit jedem Rateversuch bekommen sie im Nachhinein die Antwort präsentiert und können daraus dann lernen, indem sie die sogenannten Gewichte im Inneren des neuronalen Netzes anpassen. Das bedeutet letztlich nur: Das Modell nimmt auf Grundlage der Erfahrungen Einstellungen im Inneren vor, wegen denen es mit der Zeit immer bessere Vorhersagen treffen kann.

02

Kontext verstehen

Das sinnvollste nächste Wort können sie nur deshalb so effizient vorhersagen, weil sie heute dazu in der Lage sind, den Kontext einer Eingabe zu verarbeiten und zu verstehen. Also dass sie nicht nur einzelne Wörter verstehen, sondern welche Wörter sich in einer Eingabe aufeinander beziehen. Dass sie das können, liegt an modernen Algorithmen, insbesondere dem sogenannten Aufmerksamkeitsmechanismus. Dieser ermöglicht es dem Modell, alle Wörter einer Eingabe gleichzeitig zu betrachten und ihre Beziehungen zueinander zu gewichten. Dadurch versteht es also, dass sich ein Wort wie „Bank“ auf das Verb „sitzen“ in einem gegebenen Satz bezieht und dass es sich deshalb nicht um das Finanzinstitut handelt. Oder dass wir mit dem Wort „sie“ in einem Satz unsere Chefin meinen, die wir vor 3 Sätzen namentlich erwähnt haben.

03

Fortlaufende Textgenerierung

Weil das Modell durch diesen Mechanismus den jeweiligen Kontext erfasst, ist es in der Lage, ausgehend von der Eingabe das sinnvollste nächste Wort zu berechnen. Und dieser Prozess der Wort‑für‑Wort‑Vorhersage wird einfach so lange wiederholt, bis eine zusammenhängende, sinnvolle Antwort erzeugt worden ist. Das Modell versteht also, wenn wir es darum bitten, uns einen schlechten Klopf‑Klopf‑Joke zu erzählen, dass es nicht einfach nach dem Klopfen aufhören soll, weil der Abschnitt sonst keinen Sinn ergeben würde.

Und wenn mans noch genauer wissen möchte?

Natürlich gehören noch deutlich mehr Dinge dazu, um ein vollständiges Sprachmodell zu erhalten, aber auf einer grundlegendsten Ebene sind das die wichtigsten Aspekte. Möchte man ein ausführlicheres Verständnis entwickeln, so sollte man sich vor allem mit den folgenden vier Blöcken auseinandersetzen (die man alle in meinem kostenlosen online Videokurs abrufen kann).

Was ist Intelligenz, was ist KI?

Was versteht die Wissenschaft eigentlich unter Intelligenz? Wie grenzt sich das von künstlicher Intelligenz ab? Was ist eine allgemeine künstliche Intelligenz (AGI) und warum wäre die Entwicklung hiervon ein gesellschaftlicher Wendepunkt?

Wie ein Modell Sprache verarbeitet

Wie wird aus einem eingeworfenen Text im Sprachmodell zunächst ein Token und daraus dann sogenannte Embeddings? Und wie genau funktionieren eigentlich der Aufmerksamkeits‑Mechanismus, neuronale Netze, Gewichte und Neuronen?

Wie ein Modell trainiert wird

Es gibt verschiedene Trainingsphasen, die ein Modell durchläuft, die alle einen anderen Zweck verfolgen: Pre‑Training, Supervised‑Finetuning und Reinforcement Learning. Letzteres zielt z. B. darauf ab, dass Sprachmodelle unseren rechtlichen und moralischen Vorstellungen entsprechen („Alignment“).

Was heutige Modelle können (und was nicht)

Was genau sind eigentlich Reasoning Models und wie gut können Reasoning‑Modelle wirklich logisch schlussfolgern? Wie oft halluzinieren Sprachmodelle? Was sagen Benchmarks tatsächlich aus? Und was hat es mit sogenannten emergenten Fähigkeiten auf sich?

All dies sind Dinge, die für ein umfassendes Wissen von Sprachmodellen wichtig sind. Für die alltägliche Nutzung von Sprachmodellen ist eine so umfassende Kenntnis allerdings im Normalfall weniger wichtig. Für die meisten reicht es, ein grobes Verständnis zu entwickeln, wie es zu Beginn umrissen wurde. Damit sind Sie bestens aufgestellt.

Interesse an mehr geweckt?

Die Inhalte dieses Beitrags halte ich gerne auch als Keynote bei Ihnen in der Organisation. Wenn Sie Interesse daran haben, dann finden Sie über den gelben Button hier drunter weitere Informationen.