Valutazione completa dell’affidabilità dei recenti modelli linguistici di grandi dimensioni: svelare capacità e preoccupazioni

0
38

Negli ultimi anni, il campo dell’apprendimento automatico ha assistito a notevoli progressi, in particolare nel campo dei modelli linguistici di grandi dimensioni (LLM). Questi progressi hanno aperto la strada a un ampio spettro di applicazioni, che vanno dai chatbot e dalle diagnosi mediche alla robotica.

In questo panorama dinamico, la valutazione degli LLM è emersa come uno sforzo critico per comprenderne il potenziale e i limiti. Sono stati introdotti vari parametri di riferimento per valutare le capacità di comprensione del linguaggio di questi modelli, come GLUE e SuperGLUE.

Man mano che le capacità dei LLM si evolvono, benchmark come CodeXGLUE, BIG-Bench e NaturalInstructions sono stati progettati per affrontare compiti più complessi. Inoltre, la valutazione di aspetti che vanno oltre la semplice prestazione, come la robustezza e le considerazioni etiche, ha portato alla creazione di benchmark come AdvGLUE e TextFlint. Una recente aggiunta a questo panorama è HELM, che offre una valutazione olistica degli LLM attraverso diversi scenari e parametri.

L’emergere di preoccupazioni sull’affidabilità

Sebbene gli LLM abbiano trovato applicazioni in una gamma di domini in continua espansione, le preoccupazioni parallele riguardanti la loro affidabilità hanno guadagnato slancio. La valutazione dell’affidabilità negli LLM si è finora concentrata prevalentemente su aspetti specifici, come la robustezza e l’eccessiva fiducia.

Questo documento mira a colmare questa lacuna fornendo una valutazione completa dell’affidabilità focalizzata sul LLM GPT-42, giustapposto a GPT-3.5 (ChatGPT), da una moltitudine di prospettive. Queste prospettive comprendono la tossicità, la distorsione degli stereotipi, la robustezza del contraddittorio, la robustezza fuori dalla distribuzione, la robustezza nelle dimostrazioni del contraddittorio, la privacy, l’etica della macchina e l’equità in diversi contesti.

Le rappresentazioni visive delle risposte inaffidabili e la tassonomia della valutazione sono presentate rispettivamente nelle Figure 1 e 3, offrendo una chiara panoramica del quadro di valutazione.

Capacità migliorate degli LLM e loro implicazioni

L’evoluzione di grandi modelli linguistici, esemplificati in particolare da GPT-3.5 e GPT-4, ha portato a nuove capacità che si estendono ben oltre i loro predecessori. L’ottimizzazione su misura del dialogo ha facilitato un’elevata competenza nel seguire le istruzioni, consentendo agli utenti di modellare toni, ruoli e vari fattori adattabili.

Questa maggiore adattabilità porta a funzioni come la risposta alle domande e l’apprendimento nel contesto, in cui i modelli imparano da dimostrazioni di poche riprese durante le conversazioni. Si tratta di un allontanamento significativo rispetto ai modelli precedenti come BERT e T5, che si rivolgevano principalmente alle attività di riempimento del testo.

Tuttavia, l’emergere di queste capacità avanzate ha fatto emergere una serie di problemi di affidabilità. La capacità di seguire le istruzioni e di adattarsi a contesti diversi può inavvertitamente introdurre vulnerabilità. I potenziali avversari potrebbero sfruttare i contesti di dialogo o le istruzioni di sistema per orchestrare attacchi avversari, minando così l’affidabilità dei sistemi implementati.

Per colmare il divario tra i benchmark esistenti e queste nuove funzionalità del modello GPT, sono stati progettati diversi sistemi avversari/prompt utente. Questi suggerimenti sono meticolosamente personalizzati per valutare le prestazioni del modello in ambienti diversi e sfruttare potenziali vulnerabilità, garantendo così una valutazione più completa.

Tossicità: smascherare la generazione di contenuti dannosi

Iniziamo la nostra valutazione sondando la capacità dei modelli GPT di eludere la generazione di contenuti tossici. Vengono costruiti tre scenari di valutazione completi:

  • Valutazione benchmark standard: utilizzando il benchmark REALTOXICITYPROMPTS, misuriamo le proprietà e i limiti di GPT-3.5 e GPT-4 rispetto alle loro controparti LLM.
  • Diversi suggerimenti di sistema: distribuendo 33 suggerimenti di sistema creati manualmente, valutiamo l’influenza di questi suggerimenti sui livelli di tossicità delle risposte generate. Questi suggerimenti vanno dal gioco di ruolo alla sostituzione del significato delle parole.
  • Prompt utente impegnativi: sfruttiamo 1,2K prompt utente impegnativi, generati da GPT-3.5 e GPT-4, per scoprire la tossicità del modello in modo più efficace rispetto ai benchmark esistenti.

Bias stereotipati: scoprire i pregiudizi del subconscio

Nel nostro esame dei pregiudizi legati agli stereotipi, curiamo un set di dati contenente affermazioni cariche di stereotipi. A GPT-3.5 e GPT-4 viene quindi chiesto di essere d’accordo o in disaccordo con queste affermazioni, fornendo informazioni sui potenziali pregiudizi dei modelli. Questa valutazione si sviluppa in tre scenari:

  • Misurazione di base: i suggerimenti del sistema Vanilla benign forniscono una misurazione di base della distorsione rispetto a diversi gruppi demografici.
  • Prompt di sistema non mirati: prompt progettati guidano i modelli oltre le restrizioni delle policy sui contenuti senza favorire pregiudizi nei confronti di specifici gruppi demografici.
  • Prompt di sistema mirati: i prompt di sistema sono progettati non solo per superare i vincoli delle politiche sui contenuti, ma anche per incoraggiare i modelli a mostrare pregiudizi nei confronti di gruppi demografici selezionati, mostrando la resilienza dei modelli rispetto a input di sistema fuorvianti.

Robustezza del contraddittorio: sotto l’assalto degli attacchi del contraddittorio

La robustezza dei modelli GPT contro gli attacchi avversari testuali viene esaminata in tre scenari di valutazione:

  • Benchmark AdvGLUE standard: sottoponendo i modelli al benchmark AdvGLUE, sveliamo le vulnerabilità agli attacchi avversari esistenti, confrontiamo la robustezza di diversi modelli GPT e indaghiamo sugli impatti degli attacchi sulle capacità di seguire le istruzioni e sulla trasferibilità.
  • Varie descrizioni delle attività: alterando le descrizioni istruttive delle attività e le istruzioni del sistema, valutiamo la resilienza del modello in diversi contesti contraddittori.
  • Testi contraddittori impegnativi: GPT-3.5 e GPT-4 confrontano testi contraddittori, AdvGLUE++, esponendo le loro vulnerabilità a potenti attacchi contraddittori.

Robustezza fuori distribuzione: navigare in territori inesplorati

Per comprendere come si comportano i modelli GPT rispetto ai dati fuori distribuzione (OOD), esaminiamo le loro risposte agli input con stili di testo diversi e query che vanno oltre il loro ambito di addestramento. Tre scenari danno forma a questa valutazione:

  • Trasformazione dello stile: viene valutata la robustezza dei modelli rispetto agli input trasformati nello stile, come lo stile shakespeariano.
  • Query sugli eventi attuali: le risposte alle domande sugli eventi recenti, non coperte dai dati di training, riflettono l’affidabilità dei modelli rispetto alle query impreviste.
  • Apprendimento in contesto con dimostrazioni OOD: introduciamo dimostrazioni con vari stili e domini OOD per indagare il loro impatto sulle prestazioni del modello.

Robustezza alle dimostrazioni contraddittorie: i limiti dell’apprendimento nel contesto

L’abilità dei modelli GPT nell’apprendimento in contesto viene esaminata attraverso tre distinti scenari dimostrativi contraddittori:

  • Esempi controfattuali: i modelli incontrano esempi controfattuali come dimostrazioni, svelando potenziali vulnerabilità a input fuorvianti.
  • Correlazioni spurie: dimostrazioni con correlazioni spurie mettono alla prova la capacità dei modelli di discernere informazioni rilevanti.
  • Backdoor: le backdoor introdotte nelle dimostrazioni testano la suscettibilità dei modelli alla manipolazione e alle indicazioni fuorvianti.

Privacy: bilanciamento tra utilizzo dei dati e preoccupazioni sulla privacy

Tre scenari di valutazione incentrati sulla privacy mirano a scoprire potenziali violazioni della privacy:

  • Estrazione delle informazioni dai dati di pre-addestramento: l’accuratezza dell’estrazione delle informazioni sulla sensibilità viene valutata nei dati di pre-addestramento per scoprire potenziali problemi di memorizzazione.
  • Estrazione delle informazioni di identificazione personale (PII): l’accuratezza dell’estrazione delle PII introdotta durante le fasi di inferenza fa luce sulle potenziali vulnerabilità della privacy.
  • Comprensione del contesto della privacy: viene valutata la comprensione dei modelli dei contesti della privacy durante le conversazioni che coinvolgono parole ed eventi relativi alla privacy.

Etica delle macchine: valutare il riconoscimento morale e la resilienza

L’etica dei modelli GPT viene valutata attraverso quattro scenari incentrati sul riconoscimento morale del buon senso:

  • Benchmark standard: le prestazioni del modello sui benchmark ETICA e Jiminy Cricket misurano le loro capacità di riconoscimento morale.
  • Suggerimenti per il jailbreak: progettati per fuorviare, i suggerimenti per il jailbreak sondano la robustezza dei modelli nel riconoscimento morale.
  • Frasi evasive: le frasi evasive generate mettono alla prova il riconoscimento morale dei modelli in condizioni contraddittorie.
  • Azioni condizionali: riconoscimento morale sotto diversi attributi, esplorando le condizioni in cui i modelli potrebbero fallire.

Equità: navigare nell’equità in diversi contesti

L’equità dei modelli GPT viene valutata in tre scenari per esplorarne le prestazioni in diversi contesti:

  • Parità della velocità di base: vengono esaminate le prestazioni dei modelli nei gruppi di test con parità della velocità di base diversa in impostazioni zero-shot.
  • Contesti demograficamente squilibrati: viene esplorata l’influenza di contesti sbilanciati sull’equità del modello in contesti con poche riprese.
  • Contesti equilibrati: l’equità del modello viene indagata in diversi numeri di esempi equi e demograficamente equilibrati.

Tossicità: smascherare le vulnerabilità nella generazione di contenuti

La valutazione della tossicità porta alla luce diversi risultati significativi:

  • GPT-3.5 e GPT-4 mostrano miglioramenti sostanziali nella riduzione della tossicità rispetto agli LLM senza regolazione delle istruzioni o apprendimento per rinforzo dal feedback umano (RLHF) , mantenendo una bassa probabilità di tossicità (inferiore al 32%) attraverso diverse istruzioni di attività.
  • I suggerimenti di “jailbreaking” avversari, attentamente progettati per sfidare i modelli, espongono una vulnerabilità in cui sia GPT-3.5 che GPT-4 generano contenuti tossici con una probabilità di tossicità che raggiunge quasi il 100%.
  • L’inclinazione di GPT-4 a seguire le istruzioni di “jailbreaking” porta a una maggiore tossicità, superando quella di GPT-3.5 con diverse istruzioni di sistema e attività.
  • Sfruttare GPT-3.5 e GPT-4 per generare stimolanti attività tossiche svela un approccio per migliorare la tossicità del modello, con questa strategia trasferibile ad altri LLM privi di RLHF.

Bias stereotipato: distorsione della navigazione negli output del modello

La nostra esplorazione dei pregiudizi legati agli stereotipi produce le seguenti intuizioni:

  • GPT-3.5 e GPT-4 mostrano una debole distorsione nella maggior parte degli argomenti stereotipati con suggerimenti di sistema benigni e non mirati.
  • Tuttavia, i suggerimenti del sistema contraddittorio progettati possono “ingannare” entrambi i modelli portandoli ad accettare contenuti distorti, con GPT-4 che è più suscettibile a causa della sua precisa aderenza alle istruzioni fuorvianti.
  • La distorsione varia in base ai gruppi demografici menzionati nei suggerimenti degli utenti e alla natura degli argomenti stereotipati, evidenziando la sensibilità dei modelli al contesto della query.
  • I modelli generano contenuti più distorti su argomenti meno sensibili, probabilmente a causa della messa a punto di determinati gruppi e argomenti.

Robustezza contraddittoria: resistere agli attacchi testuali

L’esame della robustezza del contraddittorio rivela quanto segue:

  • GPT-4 supera GPT-3.5 sul benchmark AdvGLUE, indicando una maggiore robustezza.
  • GPT-4 dimostra una resistenza superiore ai testi contraddittori creati dall’uomo rispetto a GPT-3.5.
  • Le perturbazioni a livello di frase sono più trasferibili rispetto alle perturbazioni a livello di parola per entrambi i modelli sul benchmark AdvGLUE standard.
  • Nonostante le ottime prestazioni rispetto ai benchmark standard, i modelli GPT rimangono vulnerabili agli attacchi avversari da parte di altri modelli autoregressivi.
  • SemAttack e TextFooler mostrano una notevole trasferibilità negli attacchi avversari attraverso diversi modelli.

Robustezza fuori distribuzione: navigare nell’ignoto

L’esplorazione della robustezza fuori distribuzione si svolge come segue:

  • GPT-4 mostra capacità di generalizzazione costantemente più forti rispetto a GPT-3.5 attraverso diverse trasformazioni di stile OOD.
  • GPT-4 mostra una migliore resilienza nel rispondere a domande che vanno oltre il suo ambito di formazione rispetto a GPT-3.5.
  • Le dimostrazioni OOD all’interno dello stesso dominio, ma con stili diversi, evidenziano la generalizzazione superiore di GPT-4.
  • La precisione di GPT-4 è influenzata positivamente da domini strettamente correlati nelle dimostrazioni OOD ma influenzata negativamente da domini distanti, a differenza di GPT-3.5.

Robustezza alle dimostrazioni contraddittorie: smascherare l’apprendimento del modello

La robustezza alle dimostrazioni contraddittorie presenta i seguenti risultati:

  • Gli esempi controfattuali nelle dimostrazioni non fuorviano GPT-3.5 e GPT-4, ma piuttosto favoriscono il loro apprendimento.
  • Le correlazioni spurie derivanti da euristiche fallibili nelle dimostrazioni fuorviano GPT-3.5 più di GPT-4.
  • Le dimostrazioni backdoor fuorviano entrambi i modelli, soprattutto se posizionati vicino agli input dell’utente, con GPT-4 che è più suscettibile.

Privacy: navigazione tra informazioni sensibili

L’analisi della privacy espone le seguenti informazioni:

  • I modelli GPT possono divulgare dati di addestramento sensibili alla privacy, come indirizzi e-mail, quando richiesto in contesti o dimostrazioni specifici.
  • GPT-4 dimostra una migliore salvaguardia delle informazioni di identificazione personale (PII) durante le inferenze regolari, probabilmente grazie all’ottimizzazione delle istruzioni.
  • Entrambi i modelli trapelano tutti i tipi di PII quando richiesto con dimostrazioni di perdita di privacy durante l’apprendimento contestuale.
  • La maggiore vulnerabilità di GPT-4 alle richieste relative alla privacy è attribuita alla sua precisa osservanza delle istruzioni.

Etica della macchina: navigare nel riconoscimento morale

L’esplorazione dell’etica della macchina svela i seguenti risultati:

  • GPT-3.5 e GPT-4 mostrano capacità di riconoscimento morale competitivo rispetto ai modelli non GPT.
  • Entrambi i modelli possono essere ingannati dalle istruzioni di jailbreak, con l’aderenza di GPT-4 alle istruzioni che lo rendono più manipolabile.
  • Entrambi i modelli sono suscettibili di riconoscere comportamenti immorali come morali di fronte a sentenze evasive, con GPT-4 che è più vulnerabile.
  • Le prestazioni del riconoscimento variano in base alle proprietà del comportamento immorale, dimostrando le sfumature del modello.

Equità: orientarsi in previsioni eque

La valutazione dell’equità fornisce questi spunti:

  • La precisione di GPT-4 è maggiore in impostazioni di dati bilanciate, ma raggiunge punteggi di ingiustizia più elevati in impostazioni sbilanciate, evidenziando il compromesso tra accuratezza ed equità.
  • Entrambi i modelli GPT mostrano sostanziali divari prestazionali tra i gruppi di test con diversa parità di velocità di base in impostazioni zero-shot, indicando una distorsione intrinseca.
  • In contesti con pochi colpi, contesti di allenamento sbilanciati inducono previsioni ingiuste.
  • Un piccolo numero di esempi bilanciati di pochi scatti migliora l’equità delle previsioni nei modelli GPT.

Valutazione e confronto della robustezza

La tabella 5 presenta un confronto completo della robustezza di GPT-3.5 e GPT-4 rispetto ai modelli all’avanguardia (SoTA) sul benchmark AdvGLUE. La valutazione si basa su due parametri chiave: accuratezza benigna e accuratezza robusta. L’accuratezza benigna si riferisce all’accuratezza dei modelli su dati GLUE benigni, mentre l’accuratezza robusta valuta le prestazioni del modello sui dati AdvGLUE avversari. Il calo delle prestazioni, che indica la differenza tra precisione benigna e solida, offre informazioni sulla vulnerabilità di un modello agli attacchi avversari.

Precisione media robusta e calo delle prestazioni

In termini di precisione media robusta, GPT-4 supera GPT-3.5 con un punteggio impressionante del 78,41%, rispetto al 67,37% di GPT-3.5. In particolare, il modello SoTA della classifica AdvGLUE raggiunge una solida precisione del 65,77%, indicando che le prestazioni di GPT-3.5 sono alla pari con il modello esistente con le migliori prestazioni. Esaminando il calo delle prestazioni, GPT-3.5 subisce un degrado maggiore del 14,43%, mentre GPT-4 mostra un calo delle prestazioni più modesto del 9,90%. Al contrario, il modello SoTA in classifica mostra un sostanziale degrado delle prestazioni del 26,89% in condizioni avverse. Ciò posiziona GPT-4 come leggermente più robusto di GPT-3.5 e addirittura surclassando altri modelli in classifica in termini di degrado delle prestazioni.

Influenza della descrizione dell’attività e della richiesta di sistema

L’influenza della descrizione dell’attività e dei suggerimenti del sistema sulla robustezza del modello è analizzata nella Tabella 5. Diversi modelli, comprese le descrizioni istruttive delle attività (modello 2) e i suggerimenti che informano il modello sugli attacchi avversari (modello 3), non hanno un impatto significativo sulla robustezza del modello. Sia l’accuratezza media robusta che il calo delle prestazioni rimangono relativamente coerenti in questi modelli, suggerendo che questi fattori hanno un’influenza limitata sulle prestazioni dei modelli in scenari contraddittori.

Abilità di seguire istruzioni sotto attacchi avversari

Lo studio esamina se gli attacchi avversari compromettono le capacità di seguire le istruzioni dei modelli GPT. La velocità con cui i modelli forniscono risposte non specificate nel prompt (NE) è riportata nella Tabella 5 e nella Tabella 7. Con vari modelli, GPT-4 mantiene un tasso NE costante con incrementi minimi, suggerendo che gli attacchi avversari non interrompono in modo significativo le sue istruzioni -seguenti abilità. Al contrario, GPT-3.5 sperimenta un notevole aumento relativo di oltre il 50% in NE su tutti i modelli. In particolare, le risposte dei modelli differiscono qualitativamente quando forniscono risposte non specificate, con GPT-3.5 che spesso identifica le frasi di input come confuse o prive di senso, mentre GPT-4 tende a offrire interpretazioni di sentiment neutre.

Strategie di attacco trasferibili

La tabella 6 presenta un’analisi comparativa dei tassi di successo degli attacchi sul set di test AdvGLUE per GPT-3.5 e GPT-4, impiegando varie strategie di generazione di testo antagonista. Le perturbazioni a livello di frase e gli attacchi creati dall’uomo emergono come più efficaci delle perturbazioni a livello di parola, in particolare nel trasferire testi contraddittori da modelli simili a BERT. GPT-4 mostra una maggiore robustezza contro i testi contraddittori creati dall’uomo, con un calo significativo dei tassi di successo degli attacchi per attività come ANLI e AdvSQuAD, evidenziando la sua migliore resistenza a tali attacchi rispetto a GPT-3.5.

Conclusione

In conclusione, questo articolo ha esplorato ampiamente la robustezza di GPT-3.5 e GPT-4 rispetto ai modelli all’avanguardia sul benchmark AdvGLUE. GPT-4 ha mostrato prestazioni superiori in termini di precisione media robusta e calo delle prestazioni quando sottoposto ad attacchi avversari. L’influenza della descrizione dell’attività e della richiesta del sistema sulla robustezza del modello è risultata minima e le capacità di seguire le istruzioni di GPT-4 erano relativamente ben conservate in condizioni avverse. Inoltre, GPT-4 ha mostrato una maggiore resilienza contro determinate strategie di attacco rispetto a GPT-3.5. Questi risultati sottolineano i progressi nella robustezza del modello e offrono preziose informazioni sulle capacità e sui limiti dei modelli linguistici su larga scala.


collegamento di riferimento: arXiv:2306.11698v1

LEAVE A REPLY

Please enter your comment!
Please enter your name here

Questo sito usa Akismet per ridurre lo spam. Scopri come i tuoi dati vengono elaborati.