Sprachkompression in LLMs: Output-Optimierung spart Kosten, Input-Reduktion erhöht sie

Output-Kompression reduziert Inferenzkosten effektiv, während Input-Kompression die Gesamtkosten erhöht und die Antwortqualität verschlechtert.

Share on: