Language Compression in LLMs: Output Optimization Saves Costs, Input Reduction Increases Them

Output compression effectively reduces inference costs, while input compression increases overall costs and degrades response quality.

Share on: