Token-Tricks bei Claude

Tricks aus dem Video

Niklas Titgemeyer

4/19/20263 min read

Du willst dein Wissen zu Sprachmodellen vertiefen?

Dann ist mein Videokurs hierzu genau das Richtige für dich! Der erscheint nämlich in den nächsten Wochen. Darin erkläre ich von Grund auf, wie Chatbots funktionieren, wie sie trainiert werden, wie sie Verständnis von Text erzeugen uvm,

Es sind keine Mathe oder anderweitige Vorkenntnisse nötig. Dafür gibt es aber ausführliche Animationen und leicht verständliche Visualisierungen, damit jeder abgeholt wird.

Trag dich gerne über den Link beim Button hier drunter ein und ich benachrichtige dich, sobald er online ist (du bekommst sonst keine einzige Nachricht, es ist also kein klassischer Newsletter).

Verwendete Quellen:

1. Den Chat alle 15 bis 20 Nachrichten neu starten

Claude hat kein Gedächtnis zwischen den Nachrichten. Jedes Mal wenn ihr etwas schickt, liest er den kompletten Chat von vorne erneut. Nachricht 1 kostet vielleicht ein paar hundert Tokens. Nachricht 2 schon 1000, Nachricht 20 dann 10.000 Tokens, und so weiter. Jede weitere Nachricht wird also teurer als die vorherige, was euer Kontextfenster angeht. Die Lösung: Lasst Claude den bisherigen Chat zusammenfassen, kopiert die Zusammenfassung, öffnet ein neues Gespräch und fügt sie dort ein. So habt ihr grob den gleichen Kontext, verbraucht aber pro Nachricht deutlich weniger Tokens.

2. Antworten bearbeiten, nicht neu schreiben

Wenn ihr euch vertippt habt oder eure Eingabe ausbessern wollt, klickt auf das Stift-Icon und korrigiert die ursprüngliche Nachricht direkt im Chat. Dadurch werden alle nachfolgenden Nachrichten aus dem Thread entfernt. Das spart euch sämtliche Tokens, die diese Nachrichten verbraucht hätten. Neu schreiben und dranhängen ist immer teurer als korrigieren.

3. Fragen bündeln statt einzeln stellen

Denkt an Punkt 1: Bei jeder neuen Nachricht wird der gesamte bisherige Chat neu gelesen. Wenn ihr also drei Fragen in drei Nachrichten stellt, wird die Historie dreimal komplett durchgelesen. Das sind drei volle Kontextladungen an Tokens, die dabei draufgehen. Eine Nachricht mit drei Fragen bedeutet einen Durchlauf und deutlich weniger Tokens. Also lieber alle fragen gebündelt auf einmal schicken und Claude dabei nur ein mal den gesamten Verlauf lesen lassen.

4. Erweitertes Nachdenken ausschalten

"Extended Thinking" ist ein Modus, in dem Claude vor der eigentlichen Antwort erst länger nachdenkt. Das kostet zusätzliche Tokens, auch bei simplen Aufgaben, die das gar nicht brauchen. In der mobilen App klickt ihr oben auf das Modell und deaktiviert in der Aufklapp-Liste "adaptives Nachdenken". Für komplexe Probleme könnt ihr es später gezielt wieder anschalten.

5. Claude sagen, wie lang die Antwort sein soll

Claude ist standardmäßig sehr ausführlich. Ihr braucht das aber nicht immer. Fügt darum gezielt Vorgaben hinzu wie "Antworte in zwei Sätzen" oder "Nur den Code, keine Erklärung". Das kann die Anzahl der Antwort-Tokens drastisch reduzieren.

6. Token-Check zwischendurch machen

Jeder Chat hat ein Kontextlimit, also eine maximale Menge an Tokens, die in das Gespräch passen. Wenn ihr unsicher seid, fragt einfach mittendrin: "Wie weit sind wir beim Kontextlimit in diesem Chat?" Claude gibt eine grobe Schätzung. Nicht auf den Token genau, aber gut genug um zu wissen, ob jetzt eine Übergabe in einen neuen Chat sinnvoll ist (siehe Punkt 1).

7. Das richtige Modell wählen Claude gibt es in mehreren Varianten, die unterschiedlich leistungsfähig und unterschiedlich teuer sind: Haiku ist das günstigste Modell, schnell und gut für einfache Fragen. Sonnet ist die Mittelklasse, passend für die meisten alltäglichen Aufgaben. Opus ist das teuerste, gedacht für Probleme, die wirklich tiefes Reasoning brauchen. Opus kostet etwa das 1,7-fache von Sonnet pro Token, verglichen mit Haiku sogar etwa das 5-fache. Also Sonnet als Standard, Haiku für Kleinkram, Opus nur wenn es wirklich nötig ist.

8. Memory einrichten

Wenn ihr jeden Chat mit "Ich bin Sebastian und ich arbeite daran Stringtheorie für Kindergartenkinder in Kinderbüchern zu erklären" eröffnet, verbrennt ihr jedes Mal Setup-Tokens für die gleiche Info. Speichert das einmal unter Einstellungen, dann Profil, dann Memory. Claude übernimmt diese Infos dann automatisch in jedes neue Gespräch, ohne dass ihr sie immer wieder tippen müsst.

9. Sessions über den Tag verteilen Claudes Nutzungslimit läuft auf einem 5-Stunden-Fenster, nicht mit einem Mitternachts-Reset. Wenn ihr alles in einer langen Session verbrennt, seid ihr für den Rest des Tages fertig. Verteilt ihr große Aufgaben auf morgens, nachmittags und abends, habt ihr effektiv die dreifache Nutzung pro Tag.

10. Spezifisch in der ersten Nachricht sein

Ein vager Einstieg erzeugt direkt mehrere Rückfragen von Claude, weil ihm der Kontext fehlt. Jede dieser Rückfragen verbrennt Tokens, die ihr hättet sparen können. "Hilf mir, etwas zu schreiben" bedeutet vielleicht 5 Klärungsnachrichten, bevor ihr etwas Brauchbares bekommt. Besser: Packt den ganzen Kontext direkt in die erste Nachricht. Statt "Hilf mir, etwas zu schreiben" lieber: "Schreib eine 200-Wörter Instagram-Caption über Stringtheorie für Grundschüler, lockerer Ton, am Ende ein CTA." So kommt ihr beim ersten Durchlauf zum Ziel.