In un significativo allontanamento dalle sue pratiche precedenti, OpenAI ha annunciato che non utilizzerà più i dati dei clienti inviati tramite le sue API per addestrare i suoi modelli linguistici espansivi, come GPT-4.
Il cambiamento è stato confermato da Sam Altman, CEO di OpenAI, in una recente intervista con CNBC.
Il nuovo approccio di OpenAI ai dati degli utenti
La modifica della politica di OpenAI è stata implementata il 1 marzo 2023, quando la società ha aggiornato silenziosamente i suoi termini di servizio per riflettere questo nuovo impegno per la privacy degli utenti.
Altman ha chiarito: "I clienti vogliono chiaramente che non ci alleniamo sui loro dati, quindi abbiamo cambiato i nostri piani: non lo faremo".
Le API, o interfacce di programmazione delle applicazioni, sono framework tecnologici che consentono ai clienti di connettersi direttamente al software di OpenAI.
Altman ha affermato che OpenAI non utilizza i dati API per l'addestramento dei modelli "da un po' di tempo", suggerendo che questo annuncio ufficiale formalizzi una pratica esistente.
Implicazioni per i clienti commerciali
La mossa di OpenAI ha implicazioni di vasta portata, in particolare per i suoi clienti aziendali, che includono giganti come Microsoft, Salesforce e Snapchat.
È più probabile che queste aziende utilizzino le funzionalità API di OpenAI per le loro operazioni, quindi il passaggio alla privacy e alla protezione dei dati è particolarmente rilevante per loro.
Tuttavia, le nuove misure di protezione dei dati si applicano esclusivamente ai clienti che utilizzano i servizi API dell'azienda. Nota sui termini di servizio aggiornati di OpenAI: "Possiamo utilizzare i contenuti di servizi diversi dalla nostra API".
Pertanto, altre forme di input di dati, come il testo inserito nel popolare chatbot ChatGPT, possono ancora essere utilizzate da OpenAI a meno che i dati non vengano condivisi tramite l'API.
Impatto più ampio del settore
Il cambiamento di politica di OpenAI arriva quando le industrie si confrontano con i potenziali impatti di modelli linguistici di grandi dimensioni, come ChatGPT di OpenAI, che sostituiscono il materiale tradizionalmente creato dagli esseri umani.
Ad esempio, la Writers Guild of America ha recentemente iniziato a scioperare dopo che i negoziati tra la Gilda e gli studi cinematografici si sono interrotti. La Gilda aveva sostenuto restrizioni sull'uso di ChatGPT di OpenAI per la generazione o la riscrittura di script.
La decisione di OpenAI di non utilizzare i dati dei clienti per la formazione segna un momento cruciale nella conversazione in corso sulla privacy dei dati e l'intelligenza artificiale. Mentre le aziende continuano a esplorare e spingere i confini della tecnologia AI, garantire la privacy degli utenti e mantenere la fiducia rimarranno probabilmente al centro di queste discussioni.
L'evoluzione di ChatGPT: da GPT-3 a GPT-4
È importante notare che l'impegno di OpenAI a non utilizzare i dati dei clienti per la formazione si applica al suo ultimo modello linguistico, GPT-4, rilasciato il 14 marzo 2023.
GPT-4 ha introdotto diversi miglioramenti rispetto al suo predecessore, GPT-3, tra cui un aumento significativo della dimensione del limite di parole (25.000 rispetto al limite di 3.000 parole di ChatGPT), una maggiore dimensione della finestra di contesto e migliori capacità di ragionamento e comprensione.
Un'altra caratteristica degna di nota di GPT-4 è la sua multimodalità, ovvero la capacità di comprendere e dedurre informazioni da immagini oltre che da testo. Questo ultimo modello genera testi più umani, utilizzando funzionalità come gli emoji per una sensazione più personalizzata.
Tuttavia, le dimensioni e l'architettura esatte di GPT-4 rimangono segrete, portando a speculazioni sui dettagli del modello.
Nonostante queste voci, il CEO di OpenAI ha smentito affermazioni specifiche sulle dimensioni del modello.
Per quanto riguarda le prestazioni, GPT-4 ha dimostrato punti di forza nella generazione del testo ma anche alcuni limiti. Ad esempio, ha ottenuto un punteggio nel 54° percentile nel Graduate Record Examination (GRE) Writing e si è esibito nel 43°-59° percentile nell'esame AP Calculus BC.
Inoltre, ha funzionato bene su semplici attività di codifica Leetcode, ma le sue prestazioni sono diminuite con l'aumentare della difficoltà del compito.
Sebbene le specifiche del processo di addestramento di GPT-4 non siano documentate ufficialmente, è noto che i modelli GPT generalmente implicano l'apprendimento automatico su larga scala con una vasta gamma di testi Internet.
In attesa
A seguito delle modifiche alla politica di utilizzo dei dati di OpenAI, i dati utilizzati per l'addestramento dei suoi modelli linguistici non includono le informazioni condivise tramite l'API a meno che gli utenti non accettino esplicitamente di fornirle a tale scopo.
Sebbene questa tecnologia migliori e svolga un ruolo più significativo nelle nostre vite, è interessante il modo in cui le aziende ruotano e rispondono alle preoccupazioni relative alla riservatezza dei dati e alla conquista della fiducia delle persone.
Immagine in primo piano generata dall'autore utilizzando Midjourney.