Überspringen und zum Inhalt gehen →

Prompt Repetition: Einfache Performance-Steigerung für LLMs ohne Reasoning

Quelle: Leviathan et al., Google Research (arXiv:2512.14982)

Im Dezember 2025 veröffentlichte Google Research das Paper „Prompt Repetition Improves Non-Reasoning LLMs“. Das Dokument beschreibt eine überraschend triviale Methode, um die Leistung von Large Language Models (LLMs) zu steigern: die einfache Wiederholung des Eingabe-Prompts. Diese Technik erfordert keine Anpassung der Modellarchitektur und kein Fine-Tuning, liefert jedoch messbare Verbesserungen in der Genauigkeit bei Standard-Modellen wie GPT-4, Gemini, Claude und DeepSeek.

Kausale Attention und das „Re-Reading“-Phänomen

Um die Wirksamkeit von Prompt Repetition zu verstehen, ist ein Blick auf die Architektur moderner LLMs notwendig. Die meisten aktuellen Modelle basieren auf einer „Decoder-only“ Transformer-Architektur mit kausaler Attention (Causal Masking).

In einem kausalen Modell darf ein Token bei der Verarbeitung nur auf vorangegangene Token zugreifen (Links-nach-Rechts-Verarbeitung). Das bedeutet, ein Token am Anfang des Prompts hat keinen Zugriff auf Informationen, die erst am Ende des Prompts stehen. Das Verständnis des Kontexts wird rein sequenziell aufgebaut.

Dies steht im Gegensatz zu bidirektionalen Modellen (wie BERT), bei denen jedes Token jedes andere Token im Input „sehen“ kann. Bei komplexen Anweisungen oder langen Kontexten kann die strikte Sequentialität dazu führen, dass frühe Teile des Prompts nicht optimal im Kontext späterer Teile repräsentiert werden.

Die Lösung durch Wiederholung

Die Methode der Prompt Repetition verdoppelt den Eingabetext:
Input' = Prompt + Prompt

Durch diese Konkatenation ändert sich der Attention-Mechanismus für den zweiten Teil des Inputs:

  1. Der erste Durchlauf (erste Kopie) wird standardmäßig kausal verarbeitet.
  2. Der zweite Durchlauf (zweite Kopie) kann via Attention auf den gesamten ersten Durchlauf zugreifen.

Dadurch können Token in der zweiten Kopie Informationen aus „zukünftigen“ Positionen (relativ zur ersten Kopie) in ihre Repräsentation einbeziehen. Das Paper argumentiert, dass dies eine Annäherung an bidirektionale Attention simuliert. Das Modell erhält effektiv die Möglichkeit, den Text ein zweites Mal zu lesen, bevor es mit der Generierung der Antwort beginnt.

Umsetzung in der Softwareentwicklung

Die Implementierung ist technisch minimalinvasiv. Es sind keine Änderungen an Hyperparametern wie Temperatur oder Top-P notwendig. Die Anpassung erfolgt rein auf der Ebene der String-Verarbeitung vor dem API-Call.

Code-Beispiel (Python)

Das folgende Beispiel zeigt, wie ein Prompt für ein Chat-Modell (z. B. via OpenAI oder Anthropic API) aufbereitet wird.

def create_repeated_prompt(user_query: str) -> str:
    """
    Verdoppelt den User-Prompt zur Nutzung der Prompt-Repetition-Technik.

    Args:
        user_query (str): Die ursprüngliche Eingabe des Nutzers.

    Returns:
        str: Der modifizierte Prompt (Query + Query).
    """
    # Einfache Konkatenation. 
    # Je nach Modell kann ein Trennzeichen (z.B. Newline) sinnvoll sein,
    # das Paper nutzt jedoch primär direkte Wiederholung.
    return f"{user_query}\n{user_query}"

# Beispielhafte Anwendung in einem API-Call Kontext
user_input = "Extrahiere alle Datumsangaben aus folgendem Text: ..."
optimized_prompt = create_repeated_prompt(user_input)

# Pseudo-Code für API-Aufruf
# response = llm_client.generate(model="gpt-4o", prompt=optimized_prompt)

Konfigurationshinweise

  • System-Prompts
    In der Regel wird nur der User-Prompt (die spezifische Aufgabe) wiederholt. Der System-Prompt (Instruktionen zur Persona) bleibt einfach vorhanden.
  • Kontext-Fenster
    Die Wiederholung verbraucht die doppelte Anzahl an Input-Token. Bei sehr langen Dokumenten muss geprüft werden, ob das Kontext-Fenster des Modells dies zulässt.
  • Kosten
    Da Input-Token bei den meisten Providern kostenpflichtig sind, verdoppeln sich die Kosten für den Input-Teil. Dies ist gegen den Nutzen der höheren Genauigkeit abzuwägen. Da Input Tokens aber meistens deutlich günstiger sind als Output Token lohnt sich das in vielen Fällen.

Ergebnisse und Interpretation

Die Forscher evaluierten die Methode auf einer Vielzahl von Benchmarks (z. B. MMLU, GSM8k) und Modellen.

1. Genauigkeitsgewinne

Die Ergebnisse zeigen signifikante Verbesserungen, insbesondere bei Aufgaben, die kein explizites „Reasoning“ (wie Chain-of-Thought) verwenden.

  • Retrieval & Lookup
    Bei Aufgaben, die das Extrahieren spezifischer Informationen erfordern (z. B. „Finde den Namen an Position X“), stieg die Genauigkeit drastisch. Ein Beispiel im Paper (Task „NameIndex“) zeigt einen Anstieg von 21,3 % auf 97,3 % bei Gemini 2.0 Flash-Lite.
  • Allgemeine Benchmarks
    In 47 von 70 getesteten Kombinationen aus Modell und Benchmark übertraf die Wiederholung den Standard-Ansatz deutlich. In den restlichen Fällen war die Leistung gleichwertig; Verschlechterungen traten kaum auf.

2. Latenz-Analyse

Ein kritischer Aspekt für Entwickler ist die Latenz. Hier unterscheidet man zwischen zwei Phasen:

  1. Pre-fill (Prompt Processing)
    Die Verarbeitung des Inputs.
  2. Decoding (Generation)
    Das Erzeugen der Antwort-Token.

Die Ergebnisse zeigen, dass die Decoding-Geschwindigkeit unverändert bleibt, da die Ausgabe gleich lang bleibt. Die Pre-fill-Zeit steigt nur marginal, obwohl sich die Token-Anzahl verdoppelt. Da die Berechnung der Attention-Matrix im Pre-fill-Schritt hochgradig parallelisierbar ist (im Gegensatz zum sequenziellen Decoding), fällt der Zeitverlust bei modernen GPUs kaum ins Gewicht.

Grenzen der Methode

Die Technik ist nicht universell überlegen. Bei Modellen, die bereits Chain-of-Thought (CoT) oder interne Denkprozesse nutzen (z. B. OpenAI o1 oder Modelle mit explizitem „Think“-Schritt), bringt die Wiederholung keinen oder nur geringen Mehrwert. Diese Modelle führen das „Re-Reading“ oder die tiefergehende Analyse bereits implizit durch. Bei extrem langen Prompts (nahe am Kontext-Limit) kann die quadratische Komplexität der Attention im Pre-fill zu spürbarer Latenz führen.

Fazit und Bewertung

Das Paper „Prompt Repetition Improves Non-Reasoning LLMs“ liefert eine pragmatische Erkenntnis für die Entwicklung von LLM-Anwendungen. Die Methode der Prompt-Wiederholung ist ein effektives Werkzeug für Szenarien, in denen Standard-Modelle (ohne CoT) eingesetzt werden, um Extraktions-, Klassifikations- oder Verständnisaufgaben zu lösen.

Fazit

  • Anwendung
    Empfehlenswert als Standard für „Zero-Shot“-Prompts bei non-reasoning Modellen.
  • Trade-off
    Doppelte Input-Kosten gegen höhere Robustheit und Präzision.
  • Implementierung
    Trivial (String-Konkatenation), keine Infrastruktur-Änderungen nötig.

Die Technik demonstriert, dass die Grenzen aktueller LLMs oft nicht durch fehlendes Wissen, sondern durch die Limitierungen der kausalen Verarbeitung bedingt sind – ein Engpass, der durch einfache Redundanz im Input teilweise umgangen werden kann.

Veröffentlicht in Allgemein