Condivisione e allineamento tra uomini e macchine

L’intelligenza artificiale sta diventando sempre più presente nelle nostre vita e nelle nostre città. Uno dei grandi problemi aperti in intelligenza artificiale è quello del cosiddetto “allineamento dei valori”: come facciamo a essere certi che queste macchine si comportino secondo le norme e le regole di comportamento vigenti, nonché rispettando i princìpi etici e i valori umani? Un elemento specifico in questo contesto è la condivisione dell’obiettivo da raggiungere. Lo trattiamo per raccontarvi quanto ancora siamo lontani da questa condivisione. Immaginate questi esempi: come facciamo a comunicare a un veicolo autonomo quale è il suo “obiettivo primario”? E a un programma che deve mostrare abilità nel giocare ad un videogame? E ad un robot che deve afferrare una palla?
Una branca dell’intelligenza artificiale, chiamata “apprendimento per rinforzo”, ha proposto una visione radicale e molto generale per costruire macchine in grado di risolvere problemi così diversi. L’idea è molto semplice… alla macchina non viene insegnato nulla, se non tre funzioni fondamentali. La prima è la capacità di “prendere in input” un’informazione sullo stato corrente del mondo. Ad esempio: l’immagine fotografica attuale catturata da una videocamera posta sul cruscotto del veicolo o sul braccio del robot, o la configurazione dei pixel dello schermo che mostra il videogioco che si sta giocando. La seconda funzionalità è la capacità di “agire” nel mondo, senza sapere, inizialmente, quale sarà l’effetto delle proprie azioni. Ad esempio: frenare/accelerare l’auto; aprire o chiudere la mano robotica, o girare il braccio; muovere il personaggio del videogioco avanti o indietro; e così via. La terza funzionalità è quella di ottenere, una volta effettuata un’azione, un valore numerico che indichi il “premio” per quanto fatto (alla stregua del biscotto che viene dato a un topolino capace di trovare l’uscita in un labirinto). Ad esempio: un premio positivo ogni volta che il braccio robotico afferra la palla; un premio negativo (o “punizione”) ogni volta che la palla viene fatta cadere per terra; nessun premio per altre azioni. Nel prossimo numero, vi racconterò i successi di questo approccio, ma anche divertenti risultati legati appunto nel comportamento emergente in queste macchine.
(continua…)

Autore: Marco Montali