Skip to content

Uuemad Claude’i mudelid kutsuvad redigeerimistööriistu vigaselt välja

Lühidalt: Claude Opus 4.8 ja Sonnet 5 leiutavad redigeerimistööriistade kasutamisel sagedamini olematuid parameetreid, mistõttu kolmandate osapoolte arenduskeskkonnad, näiteks Pi, ebaõnnestuvad.

Uuemad Anthropicu mudelid, nagu Claude Opus 4.8 ja Sonnet 5, edastavad koodi redigeerimistööriistadele senisest sagedamini vigaseid parameetreid, samas kui vanemad mudeliversioonid seda ei tee. Probleem tundub tulenevat sellest, et uuemad mudelid on treenitud spetsiifiliselt Claude’i enda redigeerimistööriista jaoks.

Arendaja nimega Armin täheldas, et Claude Opus 4.8 lisab Pi redigeerimistööriista kasutades regulaarselt väljamõeldud välju pesastatud edits[]-massiivi. Tegelik redigeerimine on enamasti küll korrektne, kuid täiendavad, skeemis defineerimata parameetrid põhjustavad selle, et Pi lükkab tööriistakutse tagasi ja mudel peab uuesti proovima.

Pealtnäha ei ole üksik vigane tööriistakutse üllatav – mudelid tekitavad aeg-ajalt vigaselt vormistatud kutseid. Silmatorkav on siiski trend: just Opus 4.8 ja Sonnet 5, Anthropicu perekonna uusimad tipptasemel mudelid, näitavad seda käitumist, samas kui vanemad mudeliversioonid seda ei tee. Mudelite kvaliteedi kasvades näib niisiis vähenevat just võime rakendada korrektselt konkreetseid tööriistaskeeme.

Armin oletab, et Anthropic on uuemaid mudeleid tugevdusõppe (reinforcement learning) abil treeninud spetsiaalselt selleks, et need kasutaksid paremini Claude Code’i sisseehitatud redigeerimistööriista (mis põhineb otsimisel-ja-asendamisel). Sellel oleks kõrvalmõju, et alternatiivsed koodikeskkonnad, millel on omaenda erineva struktuuriga redigeerimistööriistad, saavad teenindatud senisest vigasemalt – sarnaselt sellele, kuidas OpenAI on treeninud oma mudeleid apply_patch-mehhanismi tööriista jaoks, mistõttu need toimivad teiste paigasüsteemidega halvemini.

Sellega kerkib küsimus kolmandate osapoolte, näiteks Pi jaoks: kas nad peaksid pakkuma mitut redigeerimistööriista varianti, et kasutada valitud Claude’i mudeli puhul seda tööriista, mille veamäär on madalaim?


Allikas: simonwillison.net · Avaldatud 5. juulil 2026
Lumi AI News — tehisintellekti abil kureeritud vastavalt tehisintellektimääruse artiklile 50. Parafraseerimine ja klassifitseerimine Lumi News Pipeline v1.7.3 poolt.

Share on: