Da come si legge in giro Sonnet 3.5 doveva essere qualche piccolo gradino in più di 4o, dalla tua prova invece sembra il contrario. Alla fine per completezza sembra sempre che il prodotto OpenAI sia sempre quello con qualcosa in più, ovviamente più o meno i prodotti si equivalgono e magari come dici ognuno ha i suoi punti di forza qui e là. Speriamo nei reasoners :)
Ciao, iniziano i primi confronti fra 4o e 4o mini, assurdamente sembrano simili se non addirittura qualcosina in meglio il mini, soprattutto nei confronti di logica dove il mini ha fallito di meno, infatti qualcuno sospetta che forse sia stato inserito qualche prova di reasorer (boh, ipotizzano qualche algoritmo di Catena di Pensiero o altro). Anche se è molto più veloce del 4o, ma pare cha quando verifica un'immagine invece 'pensa prima più tempo' del 4o e poi sputa la risposta più velocemente (e stranamente usa molti più tokens rispetto al 4o)
Mah non hanno senso questi confronti. Ovvio che il mini non possa essere superiore. È pensato per usi diversi. Se lo fosse in OpenAI sarebbero scemi a farlo pagare di meno
Vabbè sono confronti basati su alcuni test. Ad ogni modo, OpenAI sta ragionando sul principio della sostenibilità perché i costi iniziando ad essere esorbitanti quindi questi mini modelli aiutano molto. Però se questo mini ha confronti molto simili al 4o ed ha meno parametri, avrà subito un training magari con i nuovi dataset sintetici, e qualche algoritmo di ragionamento aggiuntivo a volte potrebbe compensare il divario. Poi boh sono opinioni di chi sa poco ma ha passione 😅
sicuramente sappiamo che i modelli sono stati addestrati soprattutto su testi anglosassoni, quindi la knowledge base è formata su testi non italiani. Però la domanda in italiano non incide sulle performance. Diverse è se chiedi di avere contenuti che richiedono una knowledge specifica.