Kontext-Rechner

Das Kontextfenster ist das Kurzzeitgedächtnis eines Sprachmodells: alles, was es beim Antworten gleichzeitig «vor Augen» hat — gemessen in Tokens, kleinen Textstücken. Hier siehst du, wie viel Text in gängige Kontextgrössen passt.

Einstellungen

Grösse des Kontextfensters

Sprache des Textes

Deutsch Englisch

Davon schon belegt (Systemprompt, Verlauf, Antwortreserve)

25 %

–

Wörter passen ungefähr hinein

–

Normseiten (à 250 Wörter)

–

Romane (à ca. 90'000 Wörter)

Warum ein grosses Kontextfenster nicht alles löst

Verlockend zu denken: «1 Million Tokens — ich werfe einfach alle meine Dokumente hinein.» In der Praxis gibt es drei Haken:

Aufmerksamkeit verteilt sich. Modelle übersehen Informationen, die mitten in sehr langen Eingaben stehen, deutlich häufiger als solche am Anfang oder Ende. Viel Kontext bedeutet nicht automatisch gutes Verständnis.
Speicher und Tempo. Je mehr Kontext tatsächlich genutzt wird, desto mehr Arbeitsspeicher braucht das Modell und desto langsamer wird die Verarbeitung — auf einem Notebook spürst du das schnell.
Relevanz schlägt Menge. Ein kurzer, passender Ausschnitt liefert oft bessere Antworten als hundert Seiten Rohmaterial. Genau darum geht es später bei RAG: gezielt die richtigen Stellen finden, statt alles hineinzustopfen.

Vertiefung: Warum kostet Kontext Arbeitsspeicher?

Beim Antworten merkt sich das Modell für jedes Token der Eingabe Zwischenergebnisse (den sogenannten KV-Cache, eine Art Notizzettel pro Token). Sein Platzbedarf wächst linear mit der Kontextlänge: doppelt so viel genutzter Kontext, ungefähr doppelt so viel zusätzlicher Speicher. Wie viel das pro Token genau ist, hängt von der Modellarchitektur ab (Anzahl Schichten, Aufbau der Aufmerksamkeitsköpfe, Genauigkeit der gespeicherten Zahlen) — deshalb nennt dieser Rechner bewusst keine Gigabyte-Werte. Konkrete Zahlen für einzelne Modelle folgen im Hardware-Modul, dort mit Quellenangabe.

Warum diese Empfehlung?

Der Rechner zeigt bewusst eine Reserve: Ein Teil des Kontextfensters ist im Alltag immer schon belegt — durch die Systemanweisung, den bisherigen Gesprächsverlauf und den Platz, den die Antwort selbst braucht. Wer sein 32K-Fenster komplett mit einem Dokument füllt, lässt dem Modell keinen Raum zum Antworten.