CoderCastrov logo
CoderCastrov
ChatGPT

Dietro le quinte di ChatGPT e Lensa: cosa sono Laion 5B e Common Crawl e come funzionano

Dietro le quinte di ChatGPT e Lensa: cosa sono Laion 5B e Common Crawl e come funzionano
просмотров
6 мин чтение
#ChatGPT
Table Of Content

    Dall’inizio dello scorso dicembre sono l’argomento del giorno, più o meno tutti i giorni, anche se non si è appassionati di tecnologia: “Hai visto che cosa può fare Lensa con le tue foto?”, e anche “ho scritto un sonetto usando ChatGPT”. O una canzone, un tema, un saggio, venti righe di codice.

    Lensa e ChatGPT sono i due esempi non solo più recenti ma pure più solidi di quello che possono fare le intelligenze artificiali, di **tutte quelle potenzialità sinora solo promesse **ma ora finalmente accessibili a tutti, pagando oppure registrandosi. E ovviamente l’interesse delle persone è cresciuto tantissimo.

    Tutti pazzi per le IALe ricerche su Google per questi due servizi, a livello mondiale ma pure in Italia, sono aumentate a dismisura appunto dal 30 novembre, mentre le **iscrizioni alla **subreddit ChatGPT su Reddit (che è questa) sono cresciute da 0 a 25mila nel giro di una decina di giorni e **i responsabili di **ChatGPT (messa alla prova qui) hanno raccontato di avere raggiunto 1 milione di utenti in soli 5 giorni dal debutto del servizio.

    Per avere un’idea di che cosa significhi questo traguardo, è utile ricordare che **Instagram ha toccato il suo primo milione dopo circa 75 giorni **e che a Spotify sono serviti addirittura 150 giorni per farcela.

    Cos’è lo scraping e come si allena un’intelligenza artificialePer avere tutto questo successo e per riuscire a fare quello che fanno, Lensa e ChatGPT (ma pure Bert e MUM, gli algoritmi di IA di Google) hanno iniziato più o meno nello stesso modo: leggendo tutta Internet, per dirlo in modo semplice. Per sapere che cosa dire, o capire cosa vogliamo dirgli, Bert si basa su circa 300 milioni di parametri, mentre GPT-3 (che è quello usato da ChatGPT) addirittura su 175 miliardi. Si è letto tutta Wikipedia in inglese, che però rappresenta appena lo 0,6% di quello che ha letto. Gli sviluppatori di Lensa le hanno fatto fare lo stesso, però con le immagini.

    Ovviamente, queste IA non hanno letto come facciamo noi umani: per studiare, usano una tecnica che sia chiama scraping (in inglese vuol dire raschiare, grattare via), che consiste nel navigare la Rete raccogliendo le informazioni per poi immagazzinarle, così da usarle quando servono. Anche qui, non navigare come facciamo noi: “Semplificando, si scrive un programma che permetta al computer di farlo in automatico — mi ha **spiegato **Annalisa Barla, professoressa associata di Informatica del Dibris dell’Università di Genova — Non si vedono sul monitor le finestre del browser che si aprono, perché tutto succede in background”. E mentre succede, l’algoritmo impara: “Gli si può indicare quali siti consultare e quali escludere, anche **classificarli in base alla loro affidabilità e autorevolezza **e per ognuno partirà dalla homepage e leggerà tutte le pagine una per una, raccogliendo testi, immagini e cifre”.

    Questa è la prima parte del training, ma le IA di cui stiamo parlando qui sono già oltre: “Il modello su cui si basa ChatGPT è stato chiuso a fine 2021 — mi ha ricordato Barla — e adesso sta imparando da noi”. In che senso? “La stanno allenando **con gli utenti, con le domande che le fanno e con le risposte **che dà: impara da questo, dalla cronologia di questi scambi, pure dai like che le persone possono dare alle risposte”. Allo stesso modo, anche Lensa impara da noi (a creare nuove facce dalle nostre facce).

    Che cosa sono Common Crawl e Laion 5BVa detto che solitamente delle attività di scraping non si occupano le persone che sviluppano le IA, ma ci sono aziende che fanno proprio questo. Due delle più grandi, anche se non molto conosciute, si chiamano **Common Crawl **e Laion e il loro lavoro è esattamente creare enormi database da dare in pasto alle intelligenze artificiali.

    La prima è una **no-profit americana **che dal 2011 raccoglie informazioni online attraverso il parsing e appunto le mette a disposizione gratuitamente delle aziende che si occupano di sviluppare algoritmi di IA, che possono usarle (in teoria) non a fini di lucro. L’idea è che queste informazioni, anche se protette da copyright, siano talmente utili alla comunità da superare la tutela del diritto d’autore. Soprattutto se non ci si guadagna su. **Al momento, **il database di Common Crawl, che comprende prevalentemente testi e dovrebbe essere quello usato da OpenAI per ChatGPT, raccoglie oltre 3,1 miliardi di pagine e pesa circa 420 terabyte.

    **Laion è tedesca **e fa più o meno la stessa cosa, però con le immagini: il suo nome vuole dire Large-scale Artificial Intelligence Open Network, cioè Network di IA aperto e su larga scala. L’ultimo prodotto si chiama Laion 5B, raggruppa al momento quasi 6 miliardi di immagini, con relative didascalie per descriverle, ed è un database usato (fra gli altri) per l’allenamento di Imagen o Stable Diffusion, che funzionano **in modo simile alla **più nota Dall-E 2. Anche qui, questa mole enorme di materiale viene messa a disposizione gratis di chi sviluppa le IA, che dunque dovrebbe (in teoria) riutilizzarlo senza lucrarci su.

    Il problema del copyrightQuest’ultimo punto è importante, soprattutto quando si parla di foto: come su Italian Tech ho già raccontato, Lensa guadagna eccome da questi dati, chiedendo agli utenti 29,99 euro per l’abbonamento annuale, oppure 2,99 per un set di 50 interpretazioni del volto. E su Twitter ci sono tantissimi esempi di immagini prodotte da Lensa che ancora **mostrano la firma dell’artista **che ha realizzato il lavoro originale su cui l’IA si è basata per creare il suo. Non potrebbe essere altrimenti: le intelligenze artificiali si allenano proprio partendo dalle opere di qualcun altro.

    E però: è giusto che **chi ha avuto questa conoscenza gratuitamente, se la faccia pagare? **Ancora: è giusto che chi ha inizialmente prodotto questa conoscenza non venga pagato per il suo sfruttamento? Che un artista digitale non veda economicamente riconosciuto il suo impegno e la sua capacità? Se foste gli eredi di Monet, Van Gogh o Picasso, non vorreste essere retribuiti da chi sfrutta le capacità dei vostri celebri antenati per mettere in piedi un business redditizio?

    Probabilmente sì, anche se va considerato che una IA, soprattutto a questo livello, ha costi enormi, sia di sviluppo sia di gestione (per GPT-3, le stime parlano di circa 5 milioni di dollari iniziali): “Per fare lavorare i cosiddetti LLM, cioè i modelli che si basano su miliardi di parametri, serve una potenza di calcolo che è quasi immorale dal punto di vista ambientale — mi ha detto Barla, un po’ scherzando e un po’ no — Stanno su server composti prevalentemente da GPU, che lavorano a ritmi simili a quelli tipici del mining delle criptomonete”.

    _la storia continua _sul sito di Italian Tech