Con provvedimento del 20 maggio 2024 il Garante privacy ha pubblicato un documento avente ad oggetto prime indicazioni sul fenomeno della raccolta massiva di dati personali dal web per finalità di addestramento dei modelli di intelligenza artificiale generativa, c.d. web scraping, ) e segnalare possibili azioni di contrasto che i gestori di siti internet e di piattaforme online, sia pubblici che privati, operanti in Italia, quali titolari del trattamento dei dati personali oggetto di pubblicazione, potrebbero implementare al fine di prevenire, ove ritenuta incompatibile con le basi giuridiche e le finalità della pubblicazione, la raccolta di dati da parte di terzi per finalità di addestramento dei modelli di intelligenza artificiale. L’analisi del Garante tiene conto dei contributi ricevuti dall’Autorità nell’ambito dell’indagine conoscitiva in materia di web scraping, deliberata con provvedimento del 21 dicembre 2023, pubblicato nella Gazzetta Ufficiale n. 14 del 18 gennaio 2024.

1. Web scraping e implicazioni privacy

Nella misura in cui il web scraping implica la raccolta di informazioni riconducibile a una persona fisica indentificata o identificabile si pone un problema di protezione dati personali.

Il focus della compliance con il Regolamento UE 2016/679) (anche “GDPR” o “Regolamento”) viene generalmente puntato sui soggetti che trattano i dati personali raccolti tramite tecniche di web scraping, in particolare con riferimento all’individuazione di una idonea base giuridica ai sensi dell’art. 6 del RGPD per la trattazione di tali dati.

Il Garante, con tale documento, intende concentrare l’analisi sulla posizione dei soggetti, pubblici e privati, gestori di siti web e piattaforme online, operanti quali titolari del trattamento di dati personali, che rendano pubblicamente disponibili, dati (anche personali) che vengono raccolti dai bot di terze parti.

Al riguardo pare opportuno ricordare che ogni titolare del trattamento di dati personali, soggetto pubblico o privato, ai sensi del Regolamento può rendere disponibili al pubblico tali dati personali esclusivamente per finalità specifiche e sulla base di una o più condizioni di legittimità tra quelle previste all’art. 6 del GDPR (es: obblighi di trasparenza, pubblicità legale, procedure a evidenza pubblica, diritto di cronaca, contratto in essere con gli interessati). Il giudizio di liceità del web scraping deve, dunque, essere effettuato caso per caso sulla base dei diversi e contrapposti diritti in gioco.

2. Possibili azioni di contrasto al web scraping per finalità di addestramento dell’intelligenza artificiale generativa

Tali azioni di contrasto, che si intende elencare anche nel presente articolo, rappresentano secondo il Garante “cautele da adottarsi sulla base di un’autonoma valutazione del titolare del trattamento,” in attuazione del principio di responsabilizzazione (accountability), allo scopo di impedire l’utilizzazione ritenuta non autorizzata, da parte di terzi, dei dati personali pubblicati in qualità di titolare. Il Garante, infatti, precisa che non è possibile impedire il web scraping al 100%. Di seguito le azioni di contrasto:

Di seguito il link per scaricare il documento: Intelligenza artificiale: dal Garante privacy le indicazioni per difendere i… – Garante Privacy

Avv. Adamo Brunetti