FlashMorph teisendab transformerid hübriid-attention-mudeliteks, tehes optimaalse valiku selle kohta, millised kihid vajavad täielikku attention’i ja millised saab asendada lineaarse attention’iga.
InfoKV ühendab tähelepanu-skoorid ebakindlusesignaalidega KV-vahemälu tihendamiseks, ületades puhta tähelepanu-põhise meetodid pikka järeldamist tehes mõõdetavate marjide võrra.