GPT-4.5 mostra prestazioni creative inferiori a GPT-4O in un nuovo punto di riferimento completo

Zhejiang University e Shanghai Ai Lab hanno rilasciatoCreation-Mmbench,un punto di riferimento appositamente progettato perValuta la creatività multimodale negli scenari del mondo reale. Questo strumento rivela sorprendenti intuizioni sulle capacità creative delle più avanzate di oggiModelli AI, compresa la scoperta cheGPT-4.5Le abilità creative sono in ritardo rispetto a quelle diGPT-4OIn molti scenari.

Spingendo oltre la tradizionale valutazione dell'IA

Mentre GPT-4.5 è stato ampiamente elogiatoPer la sua impressionante coerenza contestuale nelle domande e risposte quotidiane e in vari compiti creativi, i ricercatori hanno identificato una domanda critica:Doveesattamente è il "Creatività" DiModelli di lingua grande multimodale (MLLMS)?

La sfida è stata la misurazione della creatività in scenari complessi. I benchmark esistenti fanno fatica a quantificare se un modello di intelligenza artificiale produce approfondimenti veramente creativi, con molti scenari di test troppo semplicistici per riflettere il modo in cui questi modelli si comportano in situazioni di pensiero creativo del mondo reale.

Creazione-mmbenchaffronta questo divario valutando in modo completo "Intelligenza creativa visiva"In quattro principali categorie di attività,51 compiti a grana fine,E765casi di test impegnativi.

Perché l'intelligenza creativa visiva conta

L'intelligenza creativa è stata tradizionalmente l'aspetto più impegnativo diAIper valutare e sviluppare. A differenza delle attività analitiche con risposte chiare o sbagliate, la creatività implica la generazione di soluzioni nuove ma appropriate in contesti diversi.

Parente benchmark di attuali Mllm, comeMMBenchEMmwanness, Concentrati principalmente su compiti analitici o pratici mentre si affacciano sulle sfide creative che sono comuni nelle interazioni della vita reale con l'intelligenza artificiale multimodale. Creation-Mmbench si distingue con scenari complessi con contenuti diversi e problemi sia a immagine e multi-immagine.

Per esempio, il benchmark sfida i modelli a:

  • Genera commento alla mostra del museo avvincente
  • Scrivi saggi emotivi e basati sulla storia basati su foto di persone
  • Crea una guida culinaria sfumata come Michelin Chef che interpreta le fotografie di cibo

Questi compiti richiedono una padronanza simultanea della comprensione dei contenuti visivi, dell'adattamento contestuale e della generazione di testi creativi, le capacità che i benchmark esistenti raramente valutano in modo completo.

Il rigoroso framework di valutazione della creazione MMBench

Il punto di riferimento presenta quattro categorie di attività principali:

  1. Creazione letteraria: Valuta l'espressione artistica attraverso poesie, dialoghi, storie e costruzione narrativa
  2. Scrittura funzionale quotidiana: Test di scrittura pratica per social media, iniziative pubbliche, e-mail e domande sulla vita reale
  3. Scrittura funzionale professionale: Valuta la scrittura specializzata per interior design, pianificazione delle lezioni e descrizioni del paesaggio
  4. Comprensione e creazione multimodale: Esamina l'integrazione visiva-testuale attraverso l'analisi dei documenti e l'apprezzamento della fotografia

Ciò che distingue Creation-Mmbench è la sua complessità. Incorpora migliaia di immagini incrociate in quasi 30 categorie e supporta fino a 9 input di immagini per attività. I test di test sono completi, spesso superiori a 500 parole per fornire un contesto ricco e creativo.

Il sistema a doppia valutazione quantifica la qualità creativa

Per quantificare obiettivamente la qualità creativa, il team ha implementato un approccio a doppia valutazione:

  1. Visual Fact Score (VFS): Assicura che il modello legga accuratamente i dettagli dell'immagine senza fabbricare informazioni
  2. Ricompensa: Valuta le capacità creative e le capacità di presentazione del modello insieme al contenuto visivo

Il processo di valutazione utilizza GPT-4O come modello di valutazione, considerando i criteri di valutazione, il contenuto dello schermo e le risposte del modello per fornire valutazioni di preferenza relative tra le risposte del modello e le risposte di riferimento.

Per verificare l'affidabilità, i volontari umani hanno valutato manualmente il 13% dei campioni, confermando che GPT-4O dimostra una forte coerenza con le preferenze umane.

Risultati di riferimento: modelli chiusi contro open source

Il team di ricerca ha valutato oltre 20 MLLM mainstream utilizzando VLMEValkit Toolchain, tra cui GPT-4O, Serie Gemini, Claude 3.5 e modelli open source come Qwen2.5-VL e Internvl.

Risultati chiave:

  • Gemini-2.0-Prosovraperformato GPT-4O nella scrittura creativa multimodale, in particolare nelle attività di scrittura funzionale quotidiana
  • GPT-4.5ha mostrato prestazioni complessive più deboli di entrambiGemini-pro e GPT-4o,sebbene eccelleva specificamente nella comprensione e nella creazione del contenuto multimodale
  • Modelli open source comeQWEN2.5-VL-72BEInternvl2.5-78b-MPOCapacità creative dimostrate paragonabili ai modelli a source chiusa, ma hanno comunque mostrato un divario di prestazioni

Intuizioni specifiche della categoria:

  • Scrittura funzionale professionalesi è rivelato più impegnativo a causa delle elevate esigenze di conoscenza specializzata e di una profonda comprensione dei contenuti visivi
  • I modelli con prestazioni complessive più deboli potrebbero ancora eccellere nelle attività quotidiane relative alla vita sociale quotidiana, in cui situazioni e contenuti visivi sono più semplici.
  • La maggior parte dei modelli ha ottenuto punteggi fatti visivi elevati su compiti di comprensione e creazione multimodale, ma ha lottato con la ricreazione basata sul contenuto visivo

La scrittura funzionale professionale si è rivelata la più impegnativa tra le categorie di attività a causa delle sue esigenze di conoscenza specializzata e profonda comprensione visiva. Al contrario, le attività di scrittura funzionali quotidiane hanno visto prestazioni più elevate tra i modelli a causa della loro somiglianza con scenari sociali comuni.

L'impatto della messa a punto visiva

Per comprendere ulteriormente le funzionalità del modello, il team ha creato una versione di solo testo chiamataCreazione-mmbench-to, dove GPT-4O ha descritto il contenuto dell'immagine in dettaglio.

La valutazione del solo testo ha mostrato:

  • Modelli di linguaggio chiuso leggermente sovraperformato quelli open source in capacità di creazione
  • GPT-4O ha ottenuto punteggi di ricompensa creativa più elevati sulla versione solo per il testo, probabilmente concentrandosi maggiormente sul pensiero divergente senza vincoli di comprensione visiva.
  • Modelli multimodali open source con la messa a punto di istruzione visiva ha funzionato costantemente peggio su creazione-mmbench-to rispetto al loro modello di linguaggio di base.s

Ciò suggerisce che la messa a punto di istruzione visiva potrebbe limitare la capacità di un modello di comprendere testi più lunghi e creare contenuti estesi, con conseguenti punteggi fatti visivi più bassi e premi creativi.

Esempio del mondo reale: interpretazione ingegneristica del software

La ricerca qualitativa ha rivelato differenze significative nel modo in cui i modelli hanno gestito compiti professionali specifici:

  • Qwen2.5-VlIdentificato erroneamente un diagramma di swimlane come diagramma di flusso di dati a causa di una conoscenza insufficiente del dominio, portando ad un'analisi errata
  • GPT-4OEvitato questo errore e fornito un linguaggio più professionale e strutturato con un'interpretazione del diagramma accurata

QuestoEsempio di punti salientiL'importanza critica della conoscenza specifica del dominio e la comprensione dettagliata dell'immagine in compiti professionali, dimostrando il divario persistente tra modelli open-source e chiusi.

Conclusione

Creazione-mmbench, conDettagli disponibili suGirub, rappresenta un progresso significativo nella valutazione delle capacità creative dei modelli di grandi dimensioni multimodali in scenari realistici. Con 765 istanze che abbracciano 51 compiti dettagliati e criteri di valutazione completi, fornisce informazioni senza precedenti sulle prestazioni del modello.

Il benchmark è ora integratoVlmevalkit, Supportare la valutazione con un clic per valutare in modo completo le prestazioni di qualsiasi modello nelle attività creative. Ciò rende più facile che mai determinare se il tuo modello può raccontare efficacemente una storia avvincente basata sull'input visivo.

Related Posts