Auf den Punkt: ICA-basierte Analyse ermöglicht schnelle Exploration interpretierbarer Richtungen in Sprachmodellen ohne aufwendiges Training zusätzlicher Autoencodern.
Forscher schlagen Independent Component Analysis (ICA) als effiziente Alternative zu Sparse Autoencodern zur Interpretation von Sprachmodellen vor. Die neue Methode ICALens identifiziert interpretierbare Richtungen in Modellaktivierungen ohne das Training großer neuronaler Wörterbücher.
Sparse Autoencoders (SAEs) sind zur Standard-Methode für die Suche nach interpretierbaren Richtungen in Sprachmodellen geworden, erfordern aber aufwendiges Training und Speicherung großer übervollständiger Wörterbücher. Diese Anforderung wird zum Engpass für schnelle Explorationen und wirft die Frage auf, wie viel interpretierbare Struktur bereits in der Aktivierungsgeometrie sichtbar ist, bevor man einen neuen neuronalen Wörterbuch trainiert.
ICALens nutzt Independent Component Analysis, eine klassische statistische Methode zur Identifikation nicht-Gaussischer Richtungen. Das Tool kombiniert eine optimierte GPU-parallele FastICA-Pipeline mit speziellen Stabilitätsmaßnahmen für Sprachmodelle und verbesserten Diagnoseverfahren. Diese Kombination ermöglicht effiziente und zuverlässige Analyse pro Schicht ohne gradienten-basiertes Training pro Schicht. Das System wurde mit GPT-2 Small, Gemma 2 2B und Qwen 3.5 2B Base evaluiert.
In Benchmarks (SAEBench) erreicht ICA Wettbewerbsfähigkeit mit bestehenden öffentlichen SAEs in Sparse-Probing-Aufgaben und übertrifft diese bei gezielter Sonden-Perturbation unter klein bis mittleren Budgets. Die Ergebnisse deuten darauf hin, dass ICA nicht als schwache Baseline verstanden werden sollte, sondern als effiziente und komplementäre erste Analysemethode für die Erkundung von Sprachmodell-Repräsentationen dient.
Quelle: arxiv.org · Erschienen 9. Juni 2026
Lumi AI News — KI-assistierte Kuratierung gemaess Art. 50 EU AI Act. Paraphrase und Klassifikation durch Lumi News Pipeline v1.6.5.