Gli esperti del Digital marketing

Potenzia il tuo business online con Monkey Digital SEO: sfrutta al massimo il potenziale del marketing strategico digitale.

Il nuovo modello di intelligenza artificiale supera il potente PaLM-2 di Google

Il nuovo modello di intelligenza artificiale supera il potente PaLM-2 di Google

Inflection AI, i creatori di PI AI Personal Assistant, hanno annunciato la creazione di un nuovo e potente modello linguistico di grandi dimensioni chiamato Inflection-2 che supera il modello linguistico PaLM di Google in una serie di set di dati di benchmarking.

Assistente personale Pi

Pi è un assistente personale disponibile sul Web e come app per dispositivi mobili Android e Apple.

Può anche essere aggiunto come contatto in WhatsApp e accessibile tramite messaggio diretto su Facebook e Instagram.

Pi è progettato per essere un assistente chatbot in grado di rispondere a domande, ricercare qualsiasi cosa, dai prodotti alla scienza o ai prodotti, e può funzionare come un compagno di discussione che dispensa consigli.

Il nuovo LLM verrà incorporato in PI AI subito dopo essere stato sottoposto a test di sicurezza.

Modello linguistico di grandi dimensioni Inflessione-2

Inflection-2 è un modello linguistico di grandi dimensioni che supera il modello PaLM 2 Large di Google, che è attualmente il modello più sofisticato di Google.

Inflection-2 è stato testato su più benchmark e confrontato con PaLM 2, LLaMA 2 di Meta e altri modelli linguistici di grandi dimensioni (LLM).

Ad esempio, PaLM 2 di Google ha superato a malapena Inflection-2 nel corpus Natural Questions, un set di dati di domande del mondo reale.

PaLM 2 ha ottenuto 37,5 e Inflection-2 ha ottenuto 37,3, ed entrambi hanno sovraperformato LLaMA 2, che ha ottenuto 33,0.

MMLU – Comprensione linguistica multitasking di massa

Inflection AI ha pubblicato i punteggi di benchmarking sul set di dati MMLU, progettato per testare gli LLM in un modo simile ai test sugli esseri umani.

Il test riguarda 57 materie STEM (scienza, tecnologia, ingegneria e matematica) e un'ampia gamma di altre materie come il diritto.

Lo scopo del set di dati è identificare dove il LLM è più forte e dove è debole.

Secondo il documento di ricerca per questo set di dati di benchmarking:

“Proponiamo un nuovo test per misurare l'accuratezza multitasking di un modello testuale.

Il test copre 57 compiti tra cui matematica elementare, storia degli Stati Uniti, informatica, diritto e altro ancora.

Per ottenere un'elevata precisione in questo test, i modelli devono possedere una vasta conoscenza del mondo e capacità di risoluzione dei problemi.

Abbiamo scoperto che mentre i modelli più recenti hanno una precisione quasi casuale, il modello GPT-3 più grande migliora rispetto alla casualità di quasi 20 punti percentuali in media.

Tuttavia, in ognuna delle 57 attività, i modelli migliori necessitano ancora di miglioramenti sostanziali prima di poter raggiungere una precisione di livello esperto.

Anche i modelli hanno prestazioni sbilanciate e spesso non sanno quando hanno torto.

Peggio ancora, hanno ancora una precisione quasi casuale su alcuni argomenti socialmente importanti come la moralità e la legge.

Valutando in modo completo l’ampiezza e la profondità della comprensione accademica e professionale di un modello, il nostro test può essere utilizzato per analizzare i modelli in molti compiti e per identificare importanti carenze”.

Questi sono i punteggi del set di dati di benchmarking MMLU in ordine dal più debole al più forte:

  • LLaMA 270b 68.9
  • GPT-3.5 70.0
  • Grok-1 73.0
  • PaLM-2 Grande 78.3
  • Claude-2 _CoT 78.5
  • Inflessione-2 79.6
  • GPT-486.4

Come si può vedere sopra, solo GPT-4 ottiene punteggi più alti di Inflection-2.

MBPP – Prestazioni di ragionamento in codice e matematica

Inflection AI ha effettuato un confronto testa a testa tra GPT-4, PaLM 2, LLaMA e Inflection-2 su test di matematica e ragionamento sui codici e ha funzionato sorprendentemente bene considerando che non era specificamente addestrato per risolvere problemi di matematica.

Il set di dati di benchmarking utilizzato si chiama MBPP (Mostly Basic Python Programming). Questo set di dati è costituito da oltre 1.000 problemi di programmazione Python di crowdsourcing.

Ciò che rende i punteggi particolarmente degni di nota è che Inflection AI è stato testato rispetto a PaLM-2S, che è una variante del modello linguistico di grandi dimensioni specificamente ottimizzato per la codifica.

Punteggi MBPP:

  • LLaMA-2 70B: 45.0
  • PaLM-2S: 50,0
  • Inflessione-2: 53.0

Screenshot dei punteggi MBPP completi

Test del set di dati HumanEval

Inflection-2 ha inoltre sovraperformato PaLM-2 sul set di dati per la risoluzione dei problemi HumanEval sviluppato e rilasciato da OpenAI.

Hugging Face descrive questo set di dati:

“Il set di dati HumanEval rilasciato da OpenAI include 164 problemi di programmazione con una firma della funzione, una docstring, un corpo e diversi test unitari.

Sono stati scritti a mano per garantire che non venissero inclusi nel set di addestramento dei modelli di generazione del codice.

I problemi di programmazione sono scritti in Python e contengono testo naturale inglese nei commenti e nelle docstring.

Il set di dati è stato realizzato artigianalmente da ingegneri e ricercatori di OpenAI”.

Questi i punteggi:

  • LLaMA-2 70B: 29.9
  • PaLM-2S: 37.6
  • Inflessione-2: 44.5
  • GPT-4: 67.0

Come si può vedere sopra, solo GPT-4 ha ottenuto punteggi più alti di Inflection-2. Tuttavia va notato ancora una volta che Inflection-2 non è stato messo a punto per risolvere questo tipo di problemi, il che rende questi punteggi un risultato impressionante.

Screenshot dei punteggi completi di HumanEval

L'intelligenza artificiale di inflessione spiega perché questi punteggi sono significativi:

“Risultati sui benchmark di matematica e codifica.

Sebbene il nostro obiettivo principale per Inflection-2 non fosse ottimizzare queste capacità di codifica, osserviamo ottime prestazioni su entrambe dal nostro modello pre-addestrato.

È possibile migliorare ulteriormente le capacità di codifica del nostro modello perfezionando un set di dati ricco di codice”.

Sta arrivando un LLM ancora più potente

L'annuncio di Inflection AI affermava che Inflection-2 è stato addestrato su 5.000 GPU NVIDIA H100. Stanno pianificando di addestrare un modello ancora più grande su un cluster da 22.000 GPU, diversi ordini più grandi del cluster da 5.000 GPU su cui è stato addestrato Inflection-2.

Google e OpenAI si trovano ad affrontare una forte concorrenza da parte di startup sia chiuse che open source. Inflection AI si unisce ai ranghi più alti delle startup con una potente intelligenza artificiale in fase di sviluppo.

L'assistente personale PI è una piattaforma di intelligenza artificiale conversazionale con una tecnologia di base all'avanguardia con la possibilità di diventare ancora più potente di altre piattaforme a pagamento per l'accesso.

Le Critiche Crescenti Contro Google
Scoprire lo Sviluppo Web: La Programmazione come Arte
Scopri i Top Podcast SEO del 2024 e Mantieniti Aggiornato
Il ruolo delle finestre di dialogo nella progettazione di un'interfaccia utente web
Guida all'Integrazione di ChatGPT sul Tuo Sito Web
Utilizzo efficace di ChatGPT per la ricerca di parole chiave
Automatizzare le Campagne PPC con l'Intelligenza Artificiale Generativa
Aggiungere Coinvolgimento al tuo Sito con uno Sfondo Video CSS
Importanza delle Pagine di Destinazione per la Generazione di Lead e Incremento delle Vendite
Link Building

Link Building come parte della tua strategia di marketing può portare a risultati rivoluzionari. Seowebsite è specializzato nel Link Building e aiuta gli imprenditori a realizzare un forte profilo di link che contribuisce alla crescita online. Possiamo supportarvi anche in questo?