Auf den Punkt: Reinforcement Learning mit metakognitiven Rückmeldungen (RLMF) ermöglicht es LLMs, ihre eigene Unsicherheit kalibriert auszudrücken und übertrifft Standard-RL-Methoden um bis zu 63 Prozent.
Forscher haben ein Verfahren entwickelt, das Large Language Models durch Reinforcement Learning mit Metakognition trainiert – um ihre Selbstbewertung zu verbessern und Unsicherheiten zuverlässiger auszudrücken. Das Ziel: halluzinierende KI-Modelle sollen ihre eigenen Wissensgrenzen erkennen.
Aktuelle Large Language Models leiden unter grundlegenden metakognitiven Defiziten: Sie generieren Halluzinationen mit hoher Zuversicht, erkennen ihre Wissensgrenzen nicht zuverlässig und geben ihre interne Unsicherheit fehlerhaft wieder. Dies unterminiert ihre Vertrauenswürdigkeit, insbesondere in sicherheitskritischen Anwendungen. Metakognition – die Fähigkeit, die eigenen kognitiven Prozesse zu überwachen und zu regulieren – ist ein zentraler Aspekt von Intelligenz, den bisherige Trainingsparadigmen nicht gezielt adressieren.
Forschende haben zwei neue Mechanismen entwickelt, um dieses Problem zu lösen: „Reinforcement Learning with Metacognitive Feedback“ (RLMF) verfeinert Completion-Rankings während der Preference-Optimierung basierend auf der Qualität der Selbstbewertungen des Modells. Ein zweiter Ansatz nutzt ähnliche Selbstbewertungen zur Auswahl hochwertiger Trainingsbeispiele und übertrifft dabei naive Active-Learning-Methoden. Das Verfahren arbeitet zweistufig: Zuerst werden die Konfidenzwerte des Modells kalibriert, dann werden diese in natürlichsprachliche, kontextadaptable Unsicherheitsausdrücke übersetzt.
In umfangreichen Experimenten erreichte RLMF eine verbesserte Kalibrierung der Unsicherheitsdarstellung (Faithful Calibration) über diverse Aufgaben hinweg, während die Modellgenauigkeit erhalten blieb. Das Verfahren übertrifft Standard-RL-Methoden um bis zu 63 Prozent und verbessert nachweislich die Fähigkeit von LLMs, ihre eigenen Capability-Grenzen zu beurteilen und auszudrücken.
Quelle: arxiv.org · Erschienen 29. Juni 2026
Lumi AI News — KI-assistierte Kuratierung gemaess Art. 50 EU AI Act. Paraphrase und Klassifikation durch Lumi News Pipeline v1.7.2.