Riesige Datenmengen
Sprachmodelle werden in der ersten Phase, dem sogenannten Pre‑Training, mit gigantischen Mengen an Textdaten gefüttert. Wir sprechen hierbei von Billionen von Wörtern. Und dabei haben die Modelle im Kern nur eine einzige Aufgabe: Sie werden darauf trainiert, basierend auf dem gegebenen Text das statistisch wahrscheinlichste nächste Wort vorherzusagen. Dabei müssen sie am Anfang notwendigerweise erstmal raten. Aber mit jedem Rateversuch bekommen sie im Nachhinein die Antwort präsentiert und können daraus dann lernen, indem sie die sogenannten Gewichte im Inneren des neuronalen Netzes anpassen. Das bedeutet letztlich nur: Das Modell nimmt auf Grundlage der Erfahrungen Einstellungen im Inneren vor, wegen denen es mit der Zeit immer bessere Vorhersagen treffen kann.