Gli esperti del Digital marketing

Potenzia il tuo business online con Monkey Digital SEO: sfrutta al massimo il potenziale del marketing strategico digitale.

ChatGPT, Bard e Dolly 2.0 sono addestrati sui contenuti piratati?

ChatGPT, Bard e Dolly 2.0 sono addestrati sui contenuti piratati?

I Large Language Model (LLM) come ChatGPT, Bard e persino le versioni open source vengono addestrati sui contenuti Internet pubblici. Ma ci sono anche indicazioni che le IA popolari potrebbero anche essere addestrate su set di dati creati da libri piratati.

Dolly 2.0 è addestrato sui contenuti piratati?

Dolly 2.0 è un'intelligenza artificiale open source recentemente rilasciata. L'intento alla base di Dolly è democratizzare l'IA rendendola disponibile a tutti coloro che vogliono creare qualcosa con essa, anche prodotti commerciali.

Ma c'è anche un problema di privacy nel concentrare la tecnologia AI nelle mani di tre grandi aziende e affidare loro dati privati.

Potendo scegliere, molte aziende preferirebbero non cedere dati privati ​​a terze parti come Google, OpenAI e Meta.

Anche Mozilla, la società di browser e app open source, sta investendo nella crescita dell'ecosistema AI open source.

L'intento alla base dell'IA open source è senza dubbio buono.

Ma c'è un problema con i dati utilizzati per addestrare questi grandi modelli linguistici perché alcuni di essi sono costituiti da contenuti piratati.

Il clone di ChatGPT open source, Dolly 2.0, è stato creato da una società chiamata DataBricks (scopri di più su Dolly 2.0)

Dolly 2.0 si basa su un Open Source Large Language Model (LLM) chiamato Pizia (che è stato creato da un gruppo open source chiamato, EleutherAI).

EleutherAI ha creato otto versioni di LLM di diverse dimensioni all'interno della famiglia di LLM Pythia.

Una versione di Pythia, una versione da 12 miliardi di parametri, è quella utilizzata da DataBricks per creare Dolly 2.0, oltre a un set di dati creato da DataBricks (un set di dati di domande e risposte che è stato utilizzato per addestrare l'intelligenza artificiale di Dolly 2.0 a prendere Istruzioni)

Il vantaggio di EleutherAI Pythia LLM è che è stato addestrato utilizzando un set di dati chiamato Pile.

Il set di dati Pile è composto da più set di testi in lingua inglese, uno dei quali è un set di dati chiamato Books3. Il set di dati Books3 contiene il testo dei libri che sono stati piratati e ospitati in un sito pirata chiamato bibliotik.

Questo è ciò che dice l'annuncio di DataBricks:

"Dolly 2.0 è un modello di linguaggio con parametri 12B basato sulla famiglia di modelli pythia EleutherAI e messo a punto esclusivamente su un nuovo set di dati di istruzioni generate dall'uomo di alta qualità, raccolte in crowdsourcing tra i dipendenti di Databricks".

Pythia LLM è stato creato con il set di dati Pile

Il documento di ricerca Pythia di EleutherAI che menziona che Pythia è stata addestrata utilizzando il set di dati Pile.

Questa è una citazione dal documento di ricerca Pythia:

"Formiamo 8 dimensioni di modello ciascuna sia sulla Pile... che sulla Pile dopo la deduplicazione, fornendo 2 copie della suite che possono essere confrontate".

Deduplicazione significa che hanno rimosso i dati ridondanti, è un processo per creare un set di dati più pulito.

Quindi cosa c'è in Pile? C'è un documento di ricerca su Pile che spiega cosa c'è in quel set di dati.

Ecco una citazione dal documento di ricerca per Pile in cui si dice che usano il set di dati Books3:

“Inoltre, incorporiamo diversi set di dati esistenti di alta qualità: Books3 (Pressore2020)…”

Il documento di ricerca sul set di dati Pile si collega a un tweet di Shawn Presser, che dice cosa c'è nel set di dati Books3:

“Supponiamo che tu voglia addestrare un modello GPT di livello mondiale, proprio come OpenAI. Come? Non hai dati.

Ora fallo tu. Adesso lo fanno tutti.

Presentazione di “libri3”, ovvero “tutta la bibliotik”

– 196.640 libri
– in semplice .txt
– affidabile, download diretto, per anni: https://the-eye.eu/public/AI/pile_preliminary_components/books3.tar.gz”

Quindi ... la citazione sopra afferma chiaramente che il set di dati Pile è stato utilizzato per addestrare Pythia LLM che a sua volta è servito come base per l'IA open source Dolly 2.0.

Google Bard è addestrato sui contenuti piratati?

Il Washington Post ha recentemente pubblicato una recensione del set di dati Colossal Clean Crawled Corpus di Google (noto anche come C4 – Documento di ricerca PDF qui) in cui ha scoperto che il set di dati di Google contiene anche contenuti piratati.

Il set di dati C4 è importante perché è uno dei set di dati utilizzati per addestrare LaMDA LLM di Google, una versione del quale si basa su Bard.

Il set di dati effettivo si chiama Infiniset e il set di dati C4 costituisce circa il 12,5% del testo totale utilizzato per addestrare LaMDA. Le citazioni a quei fatti su Bard possono essere trovate qui.

L'articolo di notizie del Washington Post ha pubblicato:

“I tre siti più grandi erano patents.google.com n. 1, che contiene testo di brevetti rilasciati in tutto il mondo; wikipedia.org n. 2, l'enciclopedia online gratuita; e scribd.com No. 3, una biblioteca digitale solo in abbonamento.

In cima alla lista c'è anche b-ok.org n. 190, un famigerato mercato di e-book piratati che da allora è stato sequestrato dal Dipartimento di Giustizia degli Stati Uniti.

Nel set di dati erano presenti almeno altri 27 siti identificati dal governo degli Stati Uniti come mercati per la pirateria e le contraffazioni”.

Il difetto nell'analisi del Washington Post è che stanno guardando una versione del C4 ma non necessariamente quella su cui è stato addestrato LaMDA.

Il documento di ricerca per il set di dati C4 è stato pubblicato nel luglio 2020. Entro un anno dalla pubblicazione è stato pubblicato un altro documento di ricerca che ha scoperto che il set di dati C4 era prevenuto nei confronti delle persone di colore e della comunità LGBT.

Il documento di ricerca è intitolato, Documenting Large Webtext Corpora: A Case Study on the Colossal Clean Crawled Corpus (documento di ricerca PDF qui).

È stato scoperto dai ricercatori che il set di dati conteneva sentimenti negativi nei confronti di persone di identità arabe ed escludeva documenti associati a neri, ispanici e documenti che menzionavano l'orientamento sessuale.

I ricercatori hanno scritto:

"Il nostro esame dei dati esclusi suggerisce che i documenti associati ad autori neri e ispanici e i documenti che menzionano gli orientamenti sessuali hanno una probabilità significativamente maggiore di essere esclusi dal filtro blocklist di C4.EN e che molti documenti esclusi contenevano contenuti non offensivi o non sessuali ( ad esempio, discussioni legislative sul matrimonio tra persone dello stesso sesso, contenuti scientifici e medici).

Questa esclusione è una forma di danno allocativo... e aggrava la disuguaglianza razziale esistente (basata sulla lingua) così come la stigmatizzazione delle identità LGBTQ+...

Inoltre, una conseguenza diretta della rimozione di tale testo dai set di dati utilizzati per addestrare i modelli linguistici è che i modelli funzioneranno male se applicati al testo proveniente da e su persone con identità minoritarie, escludendole di fatto dai vantaggi della tecnologia come la traduzione automatica o la ricerca. "

Si è concluso che il filtraggio delle "parolacce" e altri tentativi di "ripulire" il set di dati erano troppo semplicistici e giustificavano un approccio più sfumato.

Queste conclusioni sono importanti perché mostrano che era risaputo che il set di dati C4 era difettoso.

LaMDA è stato sviluppato nel 2022 (due anni dopo il set di dati C4) e il documento di ricerca LaMDA associato afferma che è stato addestrato con C4.

Ma questo è solo un documento di ricerca. Ciò che accade nella vita reale su un modello di produzione può essere molto diverso da ciò che è nel documento di ricerca.

Quando si discute di un documento di ricerca, è importante ricordare che Google afferma costantemente che ciò che è contenuto in un brevetto o in un documento di ricerca non è necessariamente ciò che è in uso nell'algoritmo di Google.

È molto probabile che Google sia a conoscenza di tali conclusioni e non è irragionevole presumere che Google abbia sviluppato una nuova versione di C4 per il modello di produzione, non solo per affrontare le disuguaglianze nel set di dati, ma per aggiornarlo.

Google non dice cosa c'è nel loro algoritmo, è una scatola nera. Quindi non possiamo dire con certezza che la tecnologia alla base di Google Bard sia stata addestrata su contenuti piratati.

Per renderlo ancora più chiaro, Bard è stato rilasciato nel 2023, utilizzando una versione leggera di LaMDA. Google non ha definito cosa sia una versione leggera di LaMDA.

Quindi non c'è modo di sapere quale contenuto fosse contenuto nei set di dati utilizzati per addestrare la versione leggera di LaMDA che alimenta Bard.

Si può solo ipotizzare quale contenuto sia stato utilizzato per addestrare Bard.

GPT-4 utilizza contenuti piratati?

OpenAI è estremamente riservato riguardo ai set di dati utilizzati per addestrare GPT-4. L'ultima volta che OpenAI ha menzionato i set di dati è nel documento di ricerca PDF per GPT-3 pubblicato nel 2020 e anche lì è alquanto vago e impreciso su cosa c'è nei set di dati.

Il sito Web TowardsDataScience nel 2021 ha pubblicato un'interessante revisione delle informazioni disponibili in cui si conclude che in effetti alcuni contenuti piratati sono stati utilizzati per addestrare le prime versioni di GPT.

Loro scrivono:

“...troviamo prove che BookCorpus ha violato direttamente le restrizioni sul copyright per centinaia di libri che non avrebbero dovuto essere ridistribuiti attraverso un set di dati gratuito.

Ad esempio, oltre 200 libri in BookCorpus affermano esplicitamente che "non possono essere riprodotti, copiati e distribuiti per scopi commerciali o non commerciali".

È difficile concludere se GPT-4 abbia utilizzato contenuti piratati.

C'è un problema con l'utilizzo di contenuti piratati?

Si potrebbe pensare che potrebbe non essere etico utilizzare contenuti piratati per addestrare un modello linguistico di grandi dimensioni e trarre profitto dall'uso di tali contenuti.

Ma le leggi possono effettivamente consentire questo tipo di utilizzo.

Ho chiesto a Kenton J. Hutcherson, Internet Attorney presso Hutcherson Law, cosa pensasse dell'uso di contenuti piratati nel contesto della formazione di modelli linguistici di grandi dimensioni.

In particolare, ho chiesto se qualcuno utilizza Dolly 2.0, che potrebbe essere parzialmente creato con libri piratati, le entità commerciali che creano applicazioni con Dolly 2.0 sarebbero esposte a denunce di violazione del copyright?

Kenton ha risposto:

“Un reclamo per violazione del copyright da parte dei detentori del copyright dei libri pirata probabilmente fallirebbe a causa del fair use.

Il fair use protegge gli usi trasformativi delle opere protette da copyright.

Qui, i libri piratati non vengono utilizzati come libri da leggere per le persone, ma come input per un set di dati di addestramento dell'intelligenza artificiale.

Un esempio simile è entrato in gioco con l'uso delle miniature nelle pagine dei risultati di ricerca. Le miniature non sono lì per sostituire le pagine Web visualizzate in anteprima. Svolgono una funzione completamente diversa: visualizzano l'anteprima della pagina.

Questo è un uso trasformativo.

Karen J. Bernstein di Bernstein IP ha offerto un'opinione simile.

“L'uso del contenuto piratato è un fair use? Il fair use è una difesa comunemente usata in questi casi.

Il concetto di difesa del fair use esiste solo ai sensi della legge sul copyright degli Stati Uniti.

Il fair use viene analizzato in base a un'analisi multifattoriale che la Corte Suprema ha stabilito in un caso storico del 1994.

In questo scenario, ci saranno domande su quanto contenuto piratato sia stato prelevato dai libri e cosa sia stato fatto al contenuto (era "trasformativo"), e se tale contenuto stia sottraendo il mercato al creatore del copyright.

La tecnologia AI sta avanzando a un ritmo senza precedenti, apparentemente evolvendosi di settimana in settimana. Forse in un riflesso della concorrenza e della manna finanziaria da ottenere dal successo, Google e OpenAI stanno diventando sempre più riservati su come vengono addestrati i loro modelli di intelligenza artificiale.

Dovrebbero essere più aperti su tali informazioni? Ci si può fidare che i loro set di dati sono equi e imparziali?

L'uso di contenuti piratati per creare questi modelli di intelligenza artificiale può essere legalmente protetto come fair use, ma solo perché si può significa che si dovrebbe?

Immagine in primo piano di Shutterstock/Roman Samborskyi

Le Critiche Crescenti Contro Google
Scoprire lo Sviluppo Web: La Programmazione come Arte
Scopri i Top Podcast SEO del 2024 e Mantieniti Aggiornato
Il ruolo delle finestre di dialogo nella progettazione di un'interfaccia utente web
Guida all'Integrazione di ChatGPT sul Tuo Sito Web
Utilizzo efficace di ChatGPT per la ricerca di parole chiave
Automatizzare le Campagne PPC con l'Intelligenza Artificiale Generativa
Aggiungere Coinvolgimento al tuo Sito con uno Sfondo Video CSS
Importanza delle Pagine di Destinazione per la Generazione di Lead e Incremento delle Vendite
Link Building

Link Building come parte della tua strategia di marketing può portare a risultati rivoluzionari. Seowebsite è specializzato nel Link Building e aiuta gli imprenditori a realizzare un forte profilo di link che contribuisce alla crescita online. Possiamo supportarvi anche in questo?