Tokens sparen bei der Arbeit mit Claude

10 Tipps für einen tokeneffizienten Umgang mit Claude (und anderen Sprachmodellen)

Gerade in der kostenlosen Version von Claude kannst du schnell das Tokenlimit ausschöpfen. Das heißt also grob gesagt: dass du das Limit an Wörtern erreichst, welches du in einer Sitzung einwerfen und rausbekommen kannst. Weil jede Antwort Stromkosten verursacht. Mit diesen Tipps kannst du das Ganze aber umgehen:

Kontextfenster Limit

Token‑Check mit Plugins

Mit Browser‑Plugins wie Token Track kannst du im laufenden Gespräch einsehen, wie viele Tokens du schon verbraucht hast. Solltest du ca. über 20.000 Tokens haben, überlege dir, ob du nicht einen neuen Chat startest, indem du den alten von Claude zusammenfassen lässt.

Warum das wichtig ist

KI‑Modelle wie Claude haben kein echtes Gedächtnis, das sich Dinge wie ein Mensch merkt. Jedes Mal, wenn du eine neue Frage in denselben Chat stellst, muss die KI den gesamten bisherigen Chatverlauf von oben bis unten noch einmal komplett neu lesen, um den Kontext zu verstehen.

Wenn dein Chatverlauf also bereits 15.000 Tokens lang ist und du eine kurze Frage mit 10 Tokens stellst, verbrauchst du für diese eine Antwort nicht 10 Tokens, sondern 15.010 Tokens. Schreibst du danach noch eine Frage, wird alles wieder von vorne gelesen. Je länger der Chat wird, desto schneller „frisst“ jede neue Frage dein Token‑Limit auf, weil der alte Text immer und immer wieder mitgelesen werden muss.

Ein neuer Chat setzt diesen Zähler wieder auf Null (bei wichtigen Infos, die er im neuen Chat wissen muss, bittest du ihn einfach vorher, euer Gespräch zusammenzufassen und eine Übergabe für den neuen Chat draus zu machen, was du dann im neuen Chat einfügen kannst).

Fragen bündeln

Angenommen, du stellst drei Fragen. Dann wird auch bei jeder Frage die GESAMTE Historie drei Mal vom Sprachmodell gelesen. Das bedeutet also drei volle Kontextladungen an Tokens, die ihr dabei verbrennt. Eine Nachricht mit drei Fragen bedeutet für Claude auch, dass er nur ein einziges Mal die Nachricht lesen muss und deshalb deutlich weniger Tokens verbraucht. Darum schickt lieber alles auf einmal in einer Nachricht.

Sessions über den Tag verteilen

Claudes Limit läuft auf einem 5‑Stunden‑Fenster. Wenn du alles in einer Session verbrennst, bist du für den Tag fertig. Wenn du große Aufgaben auf Morgen, Nachmittag und Abend aufteilst, verdreifacht das effektiv deine tägliche Nutzung. Dasselbe gilt, wenn das Sessionfenster bald endet und ein neues startet. Dann schnell noch vorher eine aufwendige Aufgabe reinwerfen, die du ihm sonst später gegeben hättest.

Chats regelmäßig neu starten

Ihr solltet den Chat alle 15 bis 20 Nachrichten neu starten. Warum? Claude liest jedes Mal, wenn er euch antwortet, den gesamten Chat von vorne. Nachricht 1 kostet vielleicht nur ein paar hundert Tokens. Nachricht 2 kostet 1.000 Tokens, Nachricht 20 kostet 10.000 Tokens usw. Darum lass Claude den Chat zusammenfassen, kopiere die Zusammenfassung, öffne ein neues Gespräch und füge sie dort ein. Dann habt ihr grob den gleichen Kontext, aber verbraucht deutlich weniger Tokens pro Nachricht.

Erweitertes Nachdenken ausschalten

Claude denkt selbst bei einfachen Aufgaben länger und verbraucht dabei auch bei simplen Aufgaben deutlich mehr Tokens, wenn du es nicht ausstellst. Bei einfachen Aufgaben wie z. B. dem Zusammenfassen von kurzen Texten oder dem Schreiben einer E‑Mail kannst du durchaus auch ohne erweitertes Nachdenken arbeiten. In der mobilen App kannst du oben auf das Modell klicken und dann unten in der Aufklapp‑Liste „erweitertes Nachdenken“ deaktivieren.

Antworten bearbeiten, nicht neu schreiben

Wenn ihr euch vertippt habt oder eure Eingabe ausbessern wollt, klickt auf das Stift‑Icon und korrigiert die ursprüngliche Nachricht. Dadurch werden alle Nachrichten nach dem Edit aus dem Thread entfernt und ihr spart euch die Tokens dieser Nachrichten.

Claude sagen, wie lang die Antwort sein soll

Claude ist standardmäßig sehr ausführlich. Du brauchst das aber vielleicht nicht bei jeder Eingabe. Manchmal wollen wir explizit kurze und schnelle Antworten haben. Daher füge ggf. hinzu: „Antworte in zwei Sätzen“ oder „Schick mir nur den Code, keine Erklärung“. Das kann die Antwort‑Tokens drastisch reduzieren.

Das richtige Modell wählen

Opus kostet etwa 1,7 Mal mehr als Sonnet pro Token, verglichen mit Haiku sogar etwa 5 Mal mehr. Nimm Sonnet für alltägliche Aufgaben. Opus nur für Probleme, die wirklich tiefes Reasoning brauchen. Haiku für einfache Fragen.

Memory einrichten

Wenn du jeden Chat mit „Ich bin Peter, ich arbeite daran, String‑Theorie für Kindergartenkinder auf Social Media zu erklären“ eröffnest, verbrennst du dabei jedes Mal eine Menge Tokens (weil normalerweise ja auch Folgefehler daraus resultieren, wenn das LLM etwas über dich nicht gewusst hat, das für die Aufgabe wichtig gewesen ist). Speichere die Infos über dich deshalb einmal unter Einstellungen, dann Profil, dann Memory. Claude übernimmt es automatisch in jedes Gespräch.

Spezifisch in der ersten Nachricht sein

Ein vager Einstieg erzeugt direkt mehrere Rückfragen. Rückfragen verbrennen Tokens. „Hilf mir, etwas zu schreiben“ bedeutet vielleicht 5 Klärungsnachrichten, bevor du etwas Brauchbares bekommst. Pack den Kontext von Anfang an rein und geh es richtig an. Statt „Hilf mir, etwas zu schreiben.“ schreib lieber: „Schreib eine 200‑Wörter‑Instagram‑Caption für einen Beitrag über Stringtheorie für Grundschüler, lockerer Ton, am Ende ein CTA.“

Der Grund ist simpel: Jede Rückfrage von Claude und jede deiner Antworten darauf landet im Verlauf. Ab dann wird beides bei jeder weiteren Nachricht erneut mitgelesen. Ein vager Start kostet dich also nicht nur die Klärung selbst, sondern schleppt sich durch den ganzen restlichen Chat. Je präziser deine erste Nachricht, desto seltener dreht ihr euch im Kreis.

Als Faustregel hilft es, schon in der ersten Nachricht das Wichtigste festzulegen: Was genau soll herauskommen, in welchem Format, wie lang, für wen und in welchem Ton. Du kannst auch ein kurzes Beispiel mitgeben, an dem Claude sich orientieren soll. Wenn das Modell all das von Anfang an kennt, trifft es deutlich häufiger sofort ins Schwarze, statt sich die Infos erst Stück für Stück bei dir zusammensuchen zu müssen. Das spart dir nicht nur Tokens, sondern auch eine Menge Zeit.

Ich hoffe, das hilft dir weiter. Viel Spaß beim Arbeiten mit Claude!

KI verständlich auf die Bühne bringen?

Ich halte Keynotes, die komplexe KI‑Themen greifbar machen. Verständlich, aktuell und ohne Fachchinesisch. Von der Funktionsweise von Sprachmodellen bis zum souveränen Umgang im Alltag.

Keynote anfragen → Mehr zu den Keynotes