Databricks ha annunciato il rilascio del primo modello di linguaggio ottimizzato per le istruzioni open source, chiamato Dolly 2.0. È stato addestrato utilizzando una metodologia simile a InstructGPT ma con un set di dati di qualità superiore affermato che è open source al 100%.
Questo modello è gratuito, anche per scopi commerciali, perché ogni parte del modello è open source al 100%.
Formazione sull'istruzione open source
Ciò che rende ChatGPT in grado di seguire le indicazioni è la formazione che riceve utilizzando le tecniche delineate nel documento di ricerca InstructGPT.
La svolta scoperta con InstructGPT è che i modelli linguistici non necessitano di set di addestramento sempre più grandi.
Utilizzando la formazione di domande e risposte valutate dall'uomo, OpenAI è stata in grado di addestrare un modello linguistico migliore utilizzando un numero di parametri cento volte inferiore rispetto al modello precedente, GPT-3.
Databricks ha utilizzato un approccio simile per creare un set di dati di richiesta e risposta chiamato databricks-dolly-15k.
Il loro set di dati di prompt/risposte è stato creato senza raschiare forum web o Reddit.
databricks-dolly-15k è un set di dati creato dai dipendenti di Databricks, un 100% originale, 15.000 coppie di prompt e risposte generate dall'uomo progettate per addestrare il modello linguistico Dolly 2.0 nello stesso modo in cui il modello ChatGPT è stato creato con InstructGPT.
La pagina GitHub per il set di dati spiega come hanno fatto:
"databricks-dolly-15k è un set di dati open source di record che seguono le istruzioni utilizzato nella formazione di databricks/dolly-v2-12b che è stato generato da migliaia di dipendenti di Databricks in molte delle categorie comportamentali delineate nel documento InstructGPT, tra cui brainstorming, classificazione , QA chiuso, generazione, estrazione di informazioni, QA aperto e riepilogo.
…I dipendenti di Databricks sono stati invitati a creare coppie prompt/risposta in ciascuna delle otto diverse categorie di istruzioni, comprese le sette delineate nel documento InstructGPT, nonché una categoria in formato libero a tempo indeterminato.
I contributori sono stati istruiti a evitare di utilizzare informazioni provenienti da qualsiasi fonte sul Web ad eccezione di Wikipedia (per particolari sottoinsiemi di categorie di istruzioni) e esplicitamente istruiti a evitare l'uso dell'IA generativa nella formulazione di istruzioni o risposte. Sono stati forniti esempi di ciascun comportamento per motivare i tipi di domande e le istruzioni appropriate per ciascuna categoria.
A metà del processo di generazione dei dati, ai contributori è stata data la possibilità di rispondere alle domande poste da altri contributori. È stato chiesto loro di riformulare la domanda originale e selezionare solo le domande a cui ci si poteva ragionevolmente aspettare che rispondessero correttamente.
Databricks afferma che questo potrebbe essere il primo set di dati di istruzioni generato dall'uomo creato per addestrare un modello linguistico a seguire le istruzioni, proprio come fa ChatGPT.
La sfida era creare un set di dati originale al 100% che non avesse legami con ChatGPT o qualsiasi altra fonte con una licenza restrittiva.
I dipendenti sono stati incentivati da un concorso a contribuire alla generazione di 15.000 prompt/risposte lungo sette categorie di attività come il brainstorming, la classificazione e la scrittura creativa.
Databricks afferma che il set di addestramento databricks-dolly-15k potrebbe essere superiore al set di dati utilizzato per addestrare ChatGPT.
Notano che sebbene il loro set di dati sia più piccolo di quello utilizzato per addestrare il modello Stanford Alpaca, il loro modello ha funzionato meglio perché i loro dati sono di qualità superiore.
Loro scrivono:
“Il modello Dolly 2.0, basato sulla pythia-12b di EleutherAI, ha mostrato istruzioni di alta qualità seguendo il comportamento. Col senno di poi, questo non è sorprendente.
Molti dei set di dati di ottimizzazione delle istruzioni rilasciati negli ultimi mesi contengono dati sintetizzati, che spesso contengono allucinazioni ed errori fattuali.
databricks-dolly-15k, d'altra parte, è generato da professionisti, è di alta qualità e contiene risposte lunghe alla maggior parte delle attività.
…non ci aspettiamo che Dolly sia all'avanguardia in termini di efficacia.
Tuttavia, prevediamo che Dolly e il set di dati open source fungeranno da seme per una moltitudine di lavori successivi, che potrebbero servire a avviare modelli linguistici ancora più potenti.
Limitazioni al set di dati
La pagina GitHub per il set di dati riconosce che potrebbero esserci alcune carenze nel set di dati.
I dati di Wikipedia sono stati utilizzati per parte della formazione nel contesto della creazione di suggerimenti e risposte. Pertanto, è possibile che qualsiasi distorsione contenuta in Wikipedia possa essere riflessa nel set di dati risultante.
Alcuni dei dipendenti che hanno lavorato alla creazione del set di dati non erano di madrelingua inglese, il che potrebbe introdurre alcune anomalie nel set di dati.
La composizione demografica dei dipendenti che hanno creato il set di dati può essa stessa influenzare il set di dati per contenere pregiudizi che sono peculiari di quei dipendenti.
Nonostante queste possibili carenze nel set di dati, Databricks ha affermato che il loro è di qualità superiore.
Inoltre, Dolly 2.0 è pensato per servire come punto di partenza per altri per creare e innovare versioni ancora migliori.
Databricks insiste sul fatto che l'intelligenza artificiale open source sia migliore
Una delle motivazioni alla base della creazione di Dolly 2.0 è che gli utenti dei dati possono possedere i modelli che hanno creato e possono salvaguardare meglio i propri dati non dovendoli condividere con terzi.
Ritengono inoltre che la sicurezza dell'IA non dovrebbe essere concentrata nelle mani di tre grandi aziende, ma distribuita tra tutte le parti interessate.
L'open source sta prendendo slancio e sarà interessante vedere a che punto sarà questo settore entro i prossimi due anni.
Maggiori informazioni su dove scaricare il modello Dolly 2.0 e su come usarlo possono essere trovate nel loro annuncio.
Free Dolly: Presentazione del primo LLM ottimizzato per le istruzioni veramente aperto al mondo
Immagine in primo piano di Shutterstock/Kamil Macniak