Accusa a Google, le sue caselle di posta elettronica a rischio

La polemica va avanti da marzo 2023, dopo una ricerca portata avanti da una studiosa di intelligenza artificiale

Google di nuovo sotto accusa. Il colosso del web potrebbe infatti aver utilizzato dati di Gmail per addestrare Bard, il suo chatbot basato sull’intelligenza artificiale. La polemica è iniziata a marzo 2023, quando una ricercatrice nell’ambito dell’Ai, Kate Crawford, ha chiesto proprio al programma da dove provenisse il suo dataset. Nella risposta, Bard ha inserito anche “dati interni a Google: questi includono dati da Google search, Gmail e altri prodotti”.

Google sotto accusa
Accusa nei confronti di Google – Notizie.top

Google è subito corso ai ripari, affermando che si era trattato di un errore e di una svista del chatbot che era stato appena rilasciato, chiamato in gergo tecnico hallucination (fenomeno che si verifica quando un modello linguistico di grandi dimensioni fa affermazioni plausibili ma senza basi reali). La difesa è continuata, anche se con diversi problemi e dubbi. In un post su X, l’ex Twitter, Google ha confermato che “nessun dato personale verrà usato nell’addestramento di Bard”, per poi cancellarlo senza fornire ulteriori spiegazioni e lasciando un quesito fondamentale: cosa viene considerato un dato personale in una email? Già in passato Google ha usato un linguaggio ambiguo per rispondere a questa domanda.

Nuove accuse a Google

Per rispondere a questa domanda ci viene in soccorso proprio Bard, il chatbot incriminato. Secondo lui, nome e cognome, indirizzo, data di nascita, numero di telefono, sesso, abitudini di acquisto e posizione sono le informazioni protette dalla privacy, mentre altre, come il corpo di una mail, il suo oggetto e il destinatario, sono pubbliche. Per questo, di conseguenza, potrebbero essere usate nei dataset di training anche se, a detta di Bard, non vi sono prove a riguardo.

Mail di Google
Google potrebbe tenere traccia dei dati sulle sue email – Notizie.top

Non sarebbe la prima volta in cui dati del genere vengono utilizzati per addestrare modelli di machine learning incentrati sul linguaggio. Il sistema Smart Compose della stessa Gmail è stato completato ricorrendo a messaggi di posta elettronica scritti dagli utenti. Inoltre, un ex ingegnere di Google, Blake Lemoine, ha affermato che Bard è stato costruito partendo proprio dalle basi di Smart Compose. I due programmi condividono il motore LaMDA, il che potrebbe implicare che la chatbot sia stata addestrata partendo da dataset che già contenevano informazioni prese da email. Già nel 2021 era stato pubblicato un documento da un gruppo di ricercatori di Mountain View in cui si sottolineavano i rischi per la privacy che si trovavano nell’utilizzo di modelli linguistici di grandi dimensioni. Gli scienziati di Google hanno poi dimostrato la possibilità di estrarre questo genere di informazioni da ChatGpt, sostenendo che le tecniche spiegate nella loro ricerca possono essere applicate a qualunque modello simile, compreso Bard.