Gli esperti del Digital marketing

Potenzia il tuo business online con Monkey Digital SEO: sfrutta al massimo il potenziale del marketing strategico digitale.

Questo set di dati viene utilizzato per la ricerca AI di Google?

Questo set di dati viene utilizzato per la ricerca AI di Google?

Google ha pubblicato un documento di ricerca su un nuovo tipo di set di dati per addestrare un modello linguistico a recuperare frasi che rispondono esattamente a una domanda all'interno di un dialogo aperto.

Non sappiamo se Google stia utilizzando questo set di dati. Ma i ricercatori affermano che supera i modelli addestrati su altri set di dati.

Molti documenti di ricerca, come quello pubblicato per LaMDA, non menzionano contesti specifici di come potrebbe essere utilizzato.

Ad esempio, il documento di ricerca LaMDA (PDF) conclude vagamente:

"LaMDA è un passo avanti verso sistemi di dialogo a tempo indeterminato pratici e sicuri, che a loro volta possono sbloccare un'ampia gamma di applicazioni utili."

Questo documento di ricerca afferma che il problema che stanno risolvendo è come creare un set di dati per addestrare una macchina per un dialogo aperto selezionando una frase da una pagina web.

Perché questo set di dati è importante

Ciò che rende interessante questo documento di ricerca è che i ricercatori concludono che potrebbe essere utilizzato per fondare concretamente l'output dell'IA generativa, come quello che si vede nella nuova Search Generative Experience di Google.

Dato che il documento di ricerca è stato presentato a una conferenza sul recupero delle informazioni (Atti della 45a conferenza internazionale ACM SIGIR su ricerca e sviluppo), è abbastanza lecito supporre che questo algoritmo sia correlato al recupero delle informazioni, che significa ricerca.

Un'ultima cosa da notare è che la ricerca su questo nuovo tipo di set di dati è stata presentata lo scorso anno nel 2022 ma a quanto pare è passata inosservata... Fino ad ora.

Ciò che Google ha deciso di ottenere con il nuovo set di dati

I ricercatori spiegano su cosa si stanno concentrando:

“In questo documento ci concentriamo sui dialoghi aperti: due parti conversano a turno su un numero qualsiasi di argomenti senza restrizioni ai turni di argomento e al tipo di discussione su ciascun argomento.

Inoltre, il dialogo non è basato su un documento specifico, a differenza dell'ambientazione utilizzata in alcuni lavori precedenti...

Il compito che affrontiamo è recuperare frasi da un corpus di documenti che contengano informazioni utili per generare (automaticamente o da parte di esseri umani) la svolta successiva nel dialogo.

Notiamo che i turni di dialogo possono essere domande, domande, argomenti, dichiarazioni, ecc.

Un nuovo tipo di set di dati per la formazione del modello linguistico

Il problema che i ricercatori stanno risolvendo è come recuperare una frase da una pagina web come risposta a una domanda aperta, un tipo di domanda che richiede più di una risposta sì o no.

Il documento di ricerca spiega che ciò che manca per far sì che questa capacità si verifichi in una macchina è un set di dati conversazionale appropriato.

Spiegano che i set di dati esistenti vengono utilizzati per due motivi:

  • Per valutare le risposte al dialogo da parte di un'IA generativa, ma non per addestrarla a recuperare effettivamente le informazioni rilevanti per quella risposta.
  • Set di dati per l'utilizzo da parte di un motore di ricerca o risposta a domande, incentrati su un singolo passaggio di una domanda e risposta.
  • Spiegano le carenze dei set di dati esistenti:

    “...nella maggior parte di questi set di dati, i risultati di ricerca restituiti non vengono visualizzati come parte del dialogo.

    …sia nel recupero del passaggio conversazionale che nei set di dati QA conversazionali, c'è un utente che fa domande o domande che riflettono intenti espliciti con esigenze di informazioni, al contrario dei dialoghi naturali in cui gli intenti possono essere rappresentati solo implicitamente, ad esempio, in affermazioni affermative.

    Per riassumere, i set di dati conversazionali esistenti non combinano conversazioni umane naturali con annotazioni di rilevanza per frasi recuperate da un corpus di documenti di grandi dimensioni.

    Abbiamo quindi costruito un tale set di dati…”

    Come è stato creato il nuovo set di dati

    I ricercatori hanno creato un set di dati che può essere utilizzato per addestrare un algoritmo in grado di recuperare una frase che è la risposta corretta in un dialogo aperto.

    Il set di dati è costituito da conversazioni Reddit che sono state abbinate alle risposte di Wikipedia, oltre ad annotazioni umane (valutazioni di pertinenza), di quelle coppie di domande e risposte.

    I dati Reddit sono stati scaricati da Pushshift.io, un archivio di conversazioni Reddit (Pushshift FAQ).

    Il documento di ricerca spiega:

    “Per affrontare un ambito più ampio di questo compito in cui è possibile utilizzare qualsiasi tipo di dialogo, abbiamo costruito un set di dati che include dialoghi aperti da Reddit, frasi candidate da Wikipedia per ogni dialogo e annotazioni umane per le frasi.

    Il set di dati include 846 dialoghi creati da thread Reddit.

    Per ogni dialogo, 50 frasi sono state recuperate da Wikipedia utilizzando un metodo di recupero iniziale senza supervisione.

    Queste frasi sono state giudicate dai crowd worker per rilevanza, cioè se contenevano informazioni utili per generare la svolta successiva nel dialogo”.

    Il set di dati che hanno creato è disponibile su GitHub.

    Esempio di una domanda di dialogo:

    "Chi è venuto prima, la gallina o l'uovo?"

    Un esempio di risposta irrilevante:

    “I polli domestici esistono da circa 10.000 anni. Le uova esistono da centinaia di milioni di anni”.

    Un esempio di frase di una pagina web corretta che può essere utilizzata come risposta è:

    “Mettere più semplicemente da Neil deGrasse Tyson:
    «Chi è venuto prima: la gallina o l'uovo? L'uovo deposto da un uccello che non era un pollo.'”

    Metodologia di recupero

    Per la parte di recupero citano ricerche precedenti sui modelli linguistici e altri metodi e si accordano con un approccio di supervisione debole.

    Spiegano:

    “La messa a punto dei modelli di recupero richiede etichette di rilevanza per gli esempi di addestramento in un'attività di destinazione.

    Questi a volte sono scarsi o non disponibili.

    Un approccio per aggirare questo problema è generare automaticamente etichette e addestrare un modello con supervisione debole su queste annotazioni.

    … Seguiamo il paradigma della supervisione debole nella nostra formazione modello, con un nuovo annotatore Reddit debole per il recupero in un contesto di dialogo.

    Il set di dati ha successo?

    Google e altre organizzazioni pubblicano molti documenti di ricerca che dimostrano diversi livelli di successo.

    Alcune ricerche si concludono con un successo limitato, spostando lo stato dell'arte solo di poco se non del tutto.

    I documenti di ricerca che sono di interesse (per me) sono quelli che hanno chiaramente successo e superano l'attuale stato dell'arte.

    Questo è il caso dello sviluppo di questo set di dati per l'addestramento di un modello linguistico per recuperare frasi che servono accuratamente come svolta in un dialogo aperto.

    Affermano come un modello BERT addestrato con questo set di dati diventi ancora più potente.

    Loro scrivono:

    “In effetti, mentre RANKBERTMS supera tutti i modelli non ottimizzati, il modello RANKBERTMS→R, che è stato ulteriormente perfezionato utilizzando il nostro set di addestramento debolmente supervisionato, migliora le prestazioni.

    Questo metodo raggiunge le massime prestazioni con tutti i guadagni di prestazioni rispetto ad altri metodi che sono statisticamente significativi.

    Questa scoperta dimostra anche l'efficacia del nostro annotatore debole e del set di addestramento con supervisione debole, dimostrando che le prestazioni possono essere migliorate senza l'annotazione manuale per l'addestramento.

    Altrove i ricercatori riportano:

    “Mostriamo che un classificatore neurale che è stato messo a punto utilizzando il nostro set di addestramento debolmente supervisionato supera tutti gli altri modelli testati, incluso un classificatore neurale messo a punto sul set di dati di recupero del passaggio di MS Marco”.

    Scrivono anche che, per quanto questo approccio abbia successo, sono interessati a promuovere lo stato dell'arte ancor più di quanto non abbiano già fatto.

    Il documento di ricerca conclude:

    “Nel lavoro futuro, vorremmo ideare modelli di recupero basati su BERT addestrati sulla base della sola supervisione debole, utilizzando un BERT pre-addestrato, senza la necessità di grandi set di addestramento annotati come MS Marco.

    Vorremmo anche radicare i modelli di linguaggio generativo con i nostri modelli di recupero e studiare le conversazioni che emergono da tale radicamento”.

    Questo approccio potrebbe essere utilizzato?

    Google raramente conferma quando viene utilizzata una ricerca specifica. Ci sono alcuni casi, come con BERT, in cui Google conferma che lo stanno utilizzando.

    Ma in generale la risposta standard è che solo perché Google pubblica un documento di ricerca o un brevetto non significa che lo stiano utilizzando nel proprio algoritmo di ricerca.

    Detto questo, il documento di ricerca, che risale alla metà del 2022, ha indicato che una direzione futura era quella di studiare come i modelli di linguaggio generativo (che è come Bard e la Search Generative Experience di Google) possono essere radicati con esso.

    Un'esperienza di chat generativa basata sull'intelligenza artificiale può far sì che l'output dell'IA inventi le cose, ciò che è tecnicamente noto come allucinante.

    Grounding significa ancorare l'output della chat AI con fatti, in genere da fonti online, per aiutare a prevenire le allucinazioni.

    Bing utilizza un sistema chiamato Bing Orchestrator che controlla le pagine Web per basare l'output GPT sui fatti.

    Mettere a terra l'output dell'intelligenza artificiale aiuta a mantenerlo ancorato ai fatti, cosa che questo set di dati potrebbe essere in grado di fare, oltre a selezionare frasi da pagine Web come parte di una risposta.

    Leggi il documento di ricerca:

    Pagina Web astratta: un set di dati per il recupero di frasi per dialoghi aperti

    Documento di ricerca effettivo: un set di dati per il recupero di frasi per dialoghi aperti

    Immagine in primo piano di Shutterstock/Camilo Concha

    Le Critiche Crescenti Contro Google
    Scoprire lo Sviluppo Web: La Programmazione come Arte
    Scopri i Top Podcast SEO del 2024 e Mantieniti Aggiornato
    Il ruolo delle finestre di dialogo nella progettazione di un'interfaccia utente web
    Guida all'Integrazione di ChatGPT sul Tuo Sito Web
    Utilizzo efficace di ChatGPT per la ricerca di parole chiave
    Automatizzare le Campagne PPC con l'Intelligenza Artificiale Generativa
    Aggiungere Coinvolgimento al tuo Sito con uno Sfondo Video CSS
    Importanza delle Pagine di Destinazione per la Generazione di Lead e Incremento delle Vendite
    Link Building

    Link Building come parte della tua strategia di marketing può portare a risultati rivoluzionari. Seowebsite è specializzato nel Link Building e aiuta gli imprenditori a realizzare un forte profilo di link che contribuisce alla crescita online. Possiamo supportarvi anche in questo?