Cerebras, società di intelligenza artificiale della Silicon Valley, ha rilasciato sette modelli GPT open source per fornire un'alternativa ai sistemi strettamente controllati e proprietari disponibili oggi.
I modelli GPT open source royalty-free, inclusi i pesi e la ricetta di allenamento, sono stati rilasciati con licenza Apache 2.0 altamente permissiva da Cerebras, un'infrastruttura AI con sede nella Silicon Valley per la società di applicazioni AI.
In una certa misura, i sette modelli GPT sono una prova di concetto per il supercomputer Cerebras Andromeda AI.
L'infrastruttura di Cerebras consente ai propri clienti, come Jasper AI Copywriter, di addestrare rapidamente i propri modelli linguistici personalizzati.
Un post sul blog di Cerebras sulla tecnologia hardware ha osservato:
“Abbiamo addestrato tutti i modelli Cerebras-GPT su un cluster 16x CS-2 Cerebras Wafer-Scale chiamato Andromeda.
Il cluster ha consentito di completare rapidamente tutti gli esperimenti, senza la tradizionale progettazione dei sistemi distribuiti e l'ottimizzazione del modello parallelo necessaria sui cluster GPU.
Soprattutto, ha consentito ai nostri ricercatori di concentrarsi sulla progettazione del machine learning anziché sul sistema distribuito. Riteniamo che la capacità di addestrare facilmente modelli di grandi dimensioni sia un fattore chiave per l'ampia comunità, quindi abbiamo reso disponibile sul cloud il Cerebras Wafer-Scale Cluster tramite Cerebras AI Model Studio.
Cerebras GPT Modelli e Trasparenza
Cerebras cita la concentrazione della proprietà della tecnologia AI a poche aziende come motivo per la creazione di sette modelli GPT open source.
OpenAI, Meta e Deepmind mantengono una grande quantità di informazioni sui loro sistemi private e strettamente controllate, il che limita l'innovazione a qualsiasi cosa le tre società decidano che gli altri possano fare con i loro dati.
Un sistema closed-source è il migliore per l'innovazione nell'IA? O l'open source è il futuro?
Cerebras scrive:
“Affinché gli LLM siano una tecnologia aperta e accessibile, riteniamo che sia importante avere accesso a modelli all'avanguardia che siano aperti, riproducibili e royalty free sia per la ricerca che per le applicazioni commerciali.
A tal fine, abbiamo addestrato una famiglia di modelli di trasformatore utilizzando le tecniche più recenti e set di dati aperti che chiamiamo Cerebras-GPT.
Questi modelli sono la prima famiglia di modelli GPT addestrati utilizzando la formula Chinchilla e rilasciati tramite la licenza Apache 2.0.
Pertanto, questi sette modelli vengono rilasciati su Hugging Face e GitHub per incoraggiare ulteriori ricerche attraverso l'accesso aperto alla tecnologia AI.
Questi modelli sono stati addestrati con il supercomputer Andromeda AI di Cerebras, un processo che ha richiesto solo settimane per essere portato a termine.
Cerebras-GPT è completamente aperto e trasparente, a differenza degli ultimi modelli GPT di OpenAI (GPT-4), Deepmind e Meta OPT.
OpenAI e Deepmind Chinchilla non offrono licenze per utilizzare i modelli. Meta OPT offre solo una licenza non commerciale.
Il GPT-4 di OpenAI non ha assolutamente alcuna trasparenza sui propri dati di addestramento. Hanno utilizzato i dati di Common Crawl? Hanno raschiato Internet e creato il proprio set di dati?
OpenAI mantiene queste informazioni (e altre) segrete, il che è in contrasto con l'approccio Cerebras-GPT che è completamente trasparente.
Quanto segue è tutto aperto e trasparente:
- Architettura del modello
- Dati di allenamento
- Pesi del modello
- Punti di controllo
- Stato di addestramento ottimale per il calcolo (sì)
- Licenza d'uso: Licenza Apache 2.0
Le sette versioni sono disponibili nei modelli 111M, 256M, 590M, 1.3B, 2.7B, 6.7B e 13B.
È stato annunciato:
“In una prima tra le aziende di hardware AI, i ricercatori di Cerebras hanno addestrato, sul supercomputer Andromeda AI, una serie di sette modelli GPT con parametri 111M, 256M, 590M, 1.3B, 2.7B, 6.7B e 13B.
Tipicamente un'impresa di più mesi, questo lavoro è stato completato in poche settimane grazie all'incredibile velocità dei sistemi Cerebras CS-2 che compongono Andromeda e alla capacità dell'architettura di streaming del peso di Cerebras di eliminare il problema del calcolo distribuito.
Questi risultati dimostrano che i sistemi di Cerebras possono addestrare i carichi di lavoro IA più grandi e complessi oggi.
Questa è la prima volta che viene resa pubblica una suite di modelli GPT, addestrati utilizzando tecniche di efficienza della formazione all'avanguardia.
Questi modelli vengono addestrati con la massima precisione per un determinato budget di calcolo (ovvero un addestramento efficiente utilizzando la ricetta Chinchilla), quindi hanno tempi di addestramento inferiori, costi di addestramento inferiori e consumano meno energia rispetto a qualsiasi modello pubblico esistente.
IA open source
La fondazione Mozilla, produttrice del software open source Firefox, ha avviato una società chiamata Mozilla.ai per creare GPT open source e sistemi di raccomandazione che siano affidabili e rispettino la privacy.
Databricks ha anche recentemente rilasciato un clone GPT open source chiamato Dolly che mira a democratizzare "la magia di ChatGPT".
Oltre a questi sette modelli Cerebras GPT, un'altra società, chiamata Nomic AI, ha rilasciato GPT4All, un GPT open source che può essere eseguito su un laptop.
Oggi rilasceremo GPT4All, un chatbot in stile assistente distillato da 430.000 output GPT-3.5-Turbo che puoi eseguire sul tuo laptop. pic.twitter.com/VzvRYPLfoY
— Nomic AI (@nomic_ai) 28 marzo 2023
Il movimento dell'IA open source è in una fase nascente ma sta guadagnando slancio.
La tecnologia GPT sta dando vita a enormi cambiamenti in tutti i settori ed è possibile, forse inevitabile, che i contributi open source possano cambiare il volto delle industrie che guidano tale cambiamento.
Se il movimento open source continua ad avanzare a questo ritmo, potremmo essere sul punto di assistere a un cambiamento nell'innovazione dell'IA che gli impedisce di concentrarsi nelle mani di poche aziende.
Leggi l'annuncio ufficiale:
Cerebras Systems rilascia sette nuovi modelli GPT addestrati su sistemi su scala wafer CS-2
Immagine in primo piano di Shutterstock/Merkushev Vasiliy