Gli esperti del Digital marketing

Potenzia il tuo business online con Monkey Digital SEO: sfrutta al massimo il potenziale del marketing strategico digitale.

Può rendere l’intelligenza artificiale più affidabile

Può rendere l’intelligenza artificiale più affidabile

DeepMind di Google ha pubblicato un documento di ricerca che propone un modo per addestrare modelli linguistici di grandi dimensioni in modo che forniscano risposte più affidabili e siano resistenti all'hacking di ricompensa, un passo nello sviluppo di sistemi di intelligenza artificiale più adattabili ed efficienti.

Un saluto affettuoso a @EthanLazuk per aver twittato su un nuovo documento di ricerca di Google DeepMind.

L'intelligenza artificiale ha una tendenza all'hacking di ricompense

L'apprendimento per rinforzo dal feedback umano (RLHF) è un metodo utilizzato per addestrare l'intelligenza artificiale generativa in modo che impari a offrire risposte che ricevono punteggi positivi da valutatori umani. I punteggi positivi sono una ricompensa per le risposte corrette, motivo per cui questa tecnica è chiamata Apprendimento per Rinforzo. I punteggi positivi vengono assegnati dai valutatori umani, motivo per cui si chiama apprendimento per rinforzo dal feedback umano.

RLHF ha molto successo ma comporta anche un effetto collaterale indesiderato in cui l'IA impara le scorciatoie ricevendo una ricompensa positiva. Invece di fornire una risposta corretta, fornisce una risposta che ha l'apparenza di una risposta corretta e quando inganna i valutatori umani (che è un fallimento dell'addestramento di rinforzo), l'IA inizia a migliorare la sua capacità di ingannare i valutatori umani con risposte imprecise. risposte per ricevere le ricompense (le valutazioni umane positive).

Questa tendenza dell’IA a “imbrogliare” per guadagnare il premio di formazione si chiama Reward Hacking, che è ciò che lo studio cerca di minimizzare.

Le cause dell'hacking delle ricompense nei modelli linguistici di grandi dimensioni

Per risolvere il problema dell'hacking della ricompensa, i ricercatori hanno identificato due aree che portano all'hacking della ricompensa che devono essere affrontate dalla loro soluzione:

  • Turni di distribuzione
  • Incoerenze nelle preferenze umane

Turni di distribuzione

Gli spostamenti di distribuzione si riferiscono alla situazione in cui un LLM viene addestrato su un determinato tipo di set di dati e quindi, durante l'apprendimento per rinforzo, viene esposto a diversi tipi di dati di addestramento che non ha mai visto prima. Questo cambiamento nel tipo di dati è chiamato spostamento della distribuzione e potrebbe potenzialmente far sì che il modello linguistico manipoli il sistema di ricompensa per fornire una risposta soddisfacente che altrimenti non sarebbe pronto a fornire.

Incoerenze nelle preferenze umane

Questo è un riferimento al fatto che gli esseri umani non sono coerenti nelle loro valutazioni quando giudicano le risposte fornite dall'intelligenza artificiale. Ad esempio, risolvere il problema dell’incoerenza nelle preferenze umane è probabilmente una delle motivazioni dietro la creazione delle Linee guida per i valutatori della qualità della ricerca di Google che hanno l’effetto di ridurre l’influenza delle preferenze soggettive.

Le preferenze umane possono variare da persona a persona. L'apprendimento per rinforzo dal feedback umano si basa sul feedback umano nel processo di formazione del modello di ricompensa (RM) e sono le incoerenze che possono portare all'hacking della ricompensa.

Trovare una soluzione è importante, come hanno notato i ricercatori:

“Questo fenomeno dell’hacking delle ricompense pone numerosi problemi.

In primo luogo, degrada le prestazioni, manifestandosi come risultati linguisticamente imperfetti o inutilmente prolissi, che non riflettono le vere preferenze umane.

In secondo luogo, complica la selezione del checkpoint a causa dell'inaffidabilità del proxy RM, riecheggiando la legge di Goodhart: "quando una misura diventa un obiettivo, cessa di essere una buona misura".

In terzo luogo, può generare servilismo o amplificare i pregiudizi sociali, riflettendo la demografia limitata e distorta dei fornitori di feedback.

Infine, e in modo più critico, il disallineamento dovuto all’hacking della ricompensa può degenerare in rischi per la sicurezza, in particolare data la rapida integrazione dei LLM nella vita quotidiana e nei processi decisionali critici. “

Modelli di ricompensa ponderata media (WARM)

I ricercatori di Google DeepMind hanno sviluppato un sistema chiamato Weight Averaged Reward Models (WARM), che crea un modello proxy dalla combinazione di più modelli di ricompensa individuali, ognuno con lievi differenze. Con WARM, man mano che aumenta il numero di modelli di ricompensa (RM), mediano insieme e i risultati migliorano significativamente, con il sistema che evita l'improvviso calo di affidabilità come accade con i modelli standard.

Il sistema WARM, poiché utilizza più modelli più piccoli, ha il vantaggio di essere efficiente in termini di memoria e di non rallentare la capacità del modello di fornire risposte, oltre ad essere resistente all'hacking di ricompensa.

WARM rende inoltre il modello più affidabile e coerente quando si tratta di dati in evoluzione e più coerente.

Ciò che ha attirato la mia attenzione è la sua capacità di seguire il “paradigma aggiornabile dell'apprendimento automatico” che si riferisce alla capacità di WARM di adattarsi e migliorare incorporando nuovi dati o modifiche nel tempo, senza partire da zero.

Nella citazione seguente, WA significa media ponderata e RM significa modello di ricompensa.

I ricercatori spiegano:

“WARM rappresenta un metodo flessibile e pragmatico per migliorare l’allineamento dell’IA con i valori umani e le norme sociali.

…WARM segue il paradigma aggiornabile dell'apprendimento automatico, eliminando la necessità di comunicazione tra server, consentendo così una parallelizzazione incredibilmente semplice degli RM.

Ciò ne facilita l'utilizzo in scenari di apprendimento federato in cui i dati dovrebbero rimanere privati; inoltre, WA aggiungerebbe uno strato di privacy e mitigazione dei pregiudizi riducendo la memorizzazione delle preferenze private. Quindi, una semplice estensione di WARM combinerebbe RM addestrati su diversi set di dati, ad esempio provenienti da diversi etichettatori (cluster di).

…Inoltre, poiché WA ha dimostrato di limitare l’oblio catastrofico, WARM potrebbe supportare perfettamente preferenze iterative ed in evoluzione”.

Limitazioni

Questa ricerca indica la strada verso ulteriori modi per migliorare l'intelligenza artificiale, non è una soluzione completa perché presenta limiti intrinseci. Uno dei problemi è che non rimuove completamente tutte le forme di “correlazioni spurie o pregiudizi inerenti ai dati sulle preferenze”.

Eppure hanno concluso con tono ottimista riguardo al futuro di WARM:

“I nostri risultati empirici dimostrano la sua efficacia quando applicati al riepilogo. Prevediamo che WARM contribuirà a sistemi di intelligenza artificiale più allineati, trasparenti ed efficaci, incoraggiando ulteriori esplorazioni nella modellazione delle ricompense”.

Le Critiche Crescenti Contro Google
Scoprire lo Sviluppo Web: La Programmazione come Arte
Scopri i Top Podcast SEO del 2024 e Mantieniti Aggiornato
Il ruolo delle finestre di dialogo nella progettazione di un'interfaccia utente web
Guida all'Integrazione di ChatGPT sul Tuo Sito Web
Utilizzo efficace di ChatGPT per la ricerca di parole chiave
Automatizzare le Campagne PPC con l'Intelligenza Artificiale Generativa
Aggiungere Coinvolgimento al tuo Sito con uno Sfondo Video CSS
Importanza delle Pagine di Destinazione per la Generazione di Lead e Incremento delle Vendite
Link Building

Link Building come parte della tua strategia di marketing può portare a risultati rivoluzionari. Seowebsite è specializzato nel Link Building e aiuta gli imprenditori a realizzare un forte profilo di link che contribuisce alla crescita online. Possiamo supportarvi anche in questo?