Skip to content

Claude Fable 5: küberturvalisuse kaitsemeetmed ja jailbreak-raamistik defineeritud

Lühidalt: Anthropic liigitab tehisintellekti küberturvalisuse kasutuse nelja kategooriasse ja loob jailbreak’ide raskusastme raamistiku, et võimaldada kaitseotstarbelisi rakendusi ja tõkestada väärkasutust.

Anthropic tõi Claude Fable 5 uuesti üleilmselt kasutusele ning dokumenteerib esmakordselt küberturvalisuse klassifikaatoreid ja tehisintellekti jailbreak’ide hindamise raamistikku, et lahendada kahesuguse kasutusega seotud riske struktureeritud viisil.

Anthropic tõi Claude Fable 5 uuesti ülemaailmselt kasutusele ning jagab sellega seoses üksikasjalikku teavet kahel turvalisusega seotud teemal: sisseehitatud turvalisuse klassifikaatoritel ja jailbreak’ide raskusastme raamistikul. Klassifikaatorid on spetsialiseeritud tehisintellektisüsteemid, mille ülesanne on tuvastada ja blokeerida ohtlikke või potentsiaalselt ohtlikke küberturvalisusega seotud kasutusviise. Anthropic dokumenteerib esmakordselt täpselt, milliseid kahjukategooriaid klassifikaatorid käsitlevad ja milliseid mitte.

Põhiprobleem seisneb küberturvalisuse tehnoloogia kahesuguses kasutuses: näiteks koodi haavatavuste analüüsi võimet saavad kasutada nii kaitsjad süsteemide turvamiseks kui ka ründajad nende kompromiteerimiseks. Seetõttu ei kehtesta Anthropic kõigi küberturvalisusega seotud tegevuste üldist keeldu. Selle asemel liigitab Fable 5 päringud nelja kategooriasse: (1) keelatud kasutus – väga ohtlik ja minimaalse kaitseotstarbelise väärtusega (blokeeritakse), (2) kõrge riskiga kahesugune kasutus – ründajate seas laialt levinud, kuid õiguspäraste rakendustega (blokeeritakse), (3) madala riskiga kahesugune kasutus – valdavalt kaitseotstarbeline, kuid võib olla kasulik ka ründajatele (jälgitakse ja osaliselt blokeeritakse ettevaatusabinõuna), (4) kahjutu kasutus – ohutu (lubatud koos jälgimisega). Ettevaatusabinõuna kehtestatud puhver hõlmab teadlikult ka õiguspäraseid päringuid, mida Anthropic ettevaatuse huvides blokeerib; seda puhvrit on Fable 5 puhul varasemate versioonidega võrreldes teadlikult suurendatud.

Paralleelselt tutvustab Anthropic jailbreak’ide raskusastme raamistikku, mis on välja töötatud koostöös partneriga Glaswing. Tehisintellekti jailbreak’id on ebatavalised viipamisstrateegiad, mille abil kasutajad saavad kaitsemeetmetest mööda minna. Seni puudus standardiseeritud viis nende ohtlikkuse hindamiseks – mõned lülitavad välja vaid väiksema tähtsusega käitumismustreid, teised aga avavad ulatuslikuma kahju tekitamise võimalusi ja suurendavad märkimisväärselt tehisintellektiga seotud riske. Ühine standard võimaldaks arendajatel ja valitsustel konkreetsete jailbreak-riskide osas järjepidevalt suhelda.

Anthropic ootab Fable 5 küberturvalisuse strateegia kohta tagasisidet aadressil cyber-safeguards@anthropic.com ning haldab HackerOne’i programmi, mille kaudu turvalisuse uurijad saavad esitada uusi jailbreak’e. Ettevõte näeb selles lähenemises sammu kaitseotstarbelise tehisintellekti kasutuse ja väärkasutuse ennetamise tasakaalustamiseks standardimise kaudu.


Allikas: www.anthropic.com · Avaldatud 1. juuli 2026
Lumi AI News — tehisintellekti abil kureeritud vastavalt EU tehisintellektimääruse artiklile 50. Parafraseerimine ja klassifitseerimine Lumi News Pipeline v1.7.2 abil.

Share on: