LCLMs komprimieren KV-Caches durch Encoder-Decoder-Architektur bis 1:16 effizienter als bisherige Verfahren und reduzieren dabei Peak-Memory-Auslastung und Verarbeitungszeit.
Encoder-Decoder-Kompressoren mit adaptiver Expansion verbessern KV-Cache-Kompressionsmethoden in Geschwindigkeit und Speichereffizienz, ohne nennenswerte Qualitätsverluste.
Ein automatisiertes System aus konkurrierenden KI-Agenten findet und schließt iterativ Exploits in Agent-Benchmarks, ohne manuelle Per-Task-Patches zu erfordern.
Apple nutzt Vision-LLMs für Siri-Integration ohne Änderungen in bestehenden Apps und stellt Core AI PyTorch Extensions bereit, um Entwicklern eigene Modelle auf Apple-Hardware auszuführen.
Ein selbstlernender Rahmen für Code-Reparatur-Agenten nutzt deren Lösungsspuren direkt zur gezielten Generierung von Trainingsaufgaben und erreicht damit höhere Genauigkeit als bisherige Ansätze.
Während Video-Generierungsmodelle visuell überzeugende Bewegungen erzeugen, korreliert visuelle Qualität nicht mit der praktischen Ausführbarkeit durch Roboter — ein Evaluierungskriterium, das Standard-Metriken übersehen.
Google veröffentlicht Gemma 4 12B als Apache-2.0-lizenziertes Multimodal-Modell mit vereinheitlichter Architektur, das mit 16 GB VRAM lokal auf Laptops läuft und Text, Bild, Audio und Reasoning kombiniert.
Hidden-State-Alignment reduziert Sampling-Varianz, schließt die Schüler-Lehrer-Lücke besser und trainiert mit weniger Speicher und Rechenzeit als Output-Only-Distillation.
STRIDE formalisiert Trainingsdatenzuordnung als Sparse-Recovery-Problem im Aktivierungsraum und erreicht dabei eine Größenordnung schneller Ergebnisse als gradientbasierte Verfahren.