Auf den Punkt: Alle getesteten LLMs zitieren Tabellenwerte fehleranfällig, lassen sich aber durch spezialisierte Critic-Modelle um bis zu 12 Prozent verbessern.

Forscher haben erstmals systematisch untersucht, wie häufig Large Language Models Fehler beim Zitieren oder Auslassen von Tabellenwerten machen — ein Problem, das Zwischenergebnisse kompromittiert, auch wenn die finale Antwort stimmt.

Die Studie evaluiert Data Referencing Errors (DREs) über verschiedene Modelle und Aufgabentypen hinweg und zeigt, dass alle getesteten Modelle von 1,7 Milliarden bis 20 Milliarden Parametern diese Fehler begehen. Obwohl LLMs Tabellenstrukturen verstehen, zitieren sie Werte falsch oder vergessen sie — ein Fehlertyp, der über die finale Antwortgenauigkeit hinaus die Nachvollziehbarkeit von Reasoning-Schritten zerstört.

Die Forscher demonstrieren, dass ein Critic-Modell diese Fehler erkennen und korrigieren kann: Durch Critic-basiertes Filtering und Rejection Sampling steigt die Antwortgenauigkeit um bis zu 12,0 Prozent. Ein trainiertes 4-Milliarden-Parameter-Critic-Modell erreicht dabei einen durchschnittlichen F1-Score von 78,2 Prozent bei der Erkennung von In-Distribution- und Out-of-Distribution-DREs.

Für Entwickler bedeutet dies: Tabellen-basierte Reasoning-Pipelines sollten explizite Validierungsschritte für Datenzitate enthalten. Das lightweight Critic-Modell lässt sich als separater Validierungspass in Inference-Workflows integrieren und hilft größeren Modellen, zuverlässigere Ergebnisse zu produzieren — besonders in Szenarien, wo Nachvollziehbarkeit kritisch ist.

Quelle: arxiv.org · Erschienen 29. Juni 2026
Lumi AI News — KI-assistierte Kuratierung gemaess Art. 50 EU AI Act. Paraphrase und Klassifikation durch Lumi News Pipeline v1.7.2.

Share on:

Systematische Analyse: Wie LLMs Tabellendaten fehlerhaft referenzieren

Lumi AI News

Rechtliches

Themenbereiche