Zum Inhalt springen

FlowTracer: Gezielte Reinforcement-Learning in LLMs durch Attention-basierte Informationsflussverfolgung

Share on:

Auf den Punkt: FlowTracer weist Tokens Credit basierend auf ihrem gemessenen Informationsdurchsatz im Attention-Graphen zu statt alle gleich zu behandeln, was konsistente Leistungsgewinne bei Reasoning-Aufgaben bringt.

Forscher stellen FlowTracer vor, einen RL-Rahmen, der Tokens in großen Sprachmodellen anhand ihrer Rolle im Informationsfluss bewertet und damit präzisere Credit-Assignment für komplexe Denkprozesse ermöglicht. Das Verfahren trackt, welche Tokens tatsächlich Information vom Input zur korrekten Antwort leiten.

Das zentrale Problem beim Reinforcement Learning mit großen Sprachmodellen besteht darin, herauszufinden, welche einzelnen Tokens entscheidend für korrekte Antworten sind. Bisherige RL-Verfahren behandeln alle Tokens gleich oder nutzen punktuelle interne Signale – ignorieren aber, wie Information tatsächlich durch das Modell fließt. FlowTracer löst dies durch eine globale Perspektive: Das Verfahren konstruiert einen gerichteten, kreisfreien Graphen, in dem Tokens die Knoten bilden und die Kanten ihre Gewichte aus aggregierten Attention-Werten beziehen.

Die Kanten werden anschließend regewichtet, sodass nur Einflüsse erhalten bleiben, die tatsächlich die Antwort-Region erreichen. Durch lokale Flusskonservation wird sichergestellt, dass intermediate Tokens keine effektive Information durch Pfadlängen oder irrelevante Verzweigungen verlieren. Der Algorithmus extrahiert daraus ein Informations-Flussskelett, das Frage und Antwort verbindet und bewertet Tokens anhand ihres Durchsatzes – mit dem Ziel, hochimpaktive Hubs und Aggregationspunkte zu identifizieren, die übergreifende Abhängigkeiten vermitteln.


Quelle: arxiv.org · Erschienen 9. Juni 2026
Lumi AI News — KI-assistierte Kuratierung gemaess Art. 50 EU AI Act. Paraphrase und Klassifikation durch Lumi News Pipeline v1.6.5.

Share on: