banner
Casa / Notizia / La dopamina mesolimbica adatta la velocità di apprendimento dall'azione
Notizia

La dopamina mesolimbica adatta la velocità di apprendimento dall'azione

May 27, 2023May 27, 2023

Natura volume 614, pagine 294–302 (2023) Citare questo articolo

20mila accessi

2 citazioni

109 Altmetrico

Dettagli sulle metriche

Il recente successo nella formazione di agenti artificiali e robot deriva da una combinazione di apprendimento diretto delle politiche comportamentali e apprendimento indiretto attraverso funzioni di valore1,2,3. L’apprendimento delle politiche e l’apprendimento del valore utilizzano algoritmi distinti che ottimizzano rispettivamente le prestazioni comportamentali e la previsione delle ricompense. Negli animali, l'apprendimento comportamentale e il ruolo della segnalazione mesolimbica della dopamina sono stati ampiamente valutati rispetto alla previsione della ricompensa4; tuttavia, finora si è tenuto poco conto di come l’apprendimento diretto delle politiche possa informare la nostra comprensione5. Qui abbiamo utilizzato un set di dati completo di movimenti orofacciali e del corpo per capire come le politiche comportamentali si sono evolute quando topi ingenui e con la testa trattenuta hanno imparato un paradigma di condizionamento delle tracce. Le differenze individuali nelle risposte iniziali di ricompensa dopaminergica erano correlate con l'emergere di politiche comportamentali apprese, ma non con l'emergere di una presunta codifica di valore per un segnale predittivo. Allo stesso modo, manipolazioni fisiologicamente calibrate della dopamina mesolimbica hanno prodotto diversi effetti incoerenti con l’apprendimento del valore ma previsti da un modello basato su rete neurale che utilizzava segnali della dopamina per impostare un tasso adattivo, non un segnale di errore, per l’apprendimento delle politiche comportamentali. Questo lavoro fornisce una forte prova del fatto che l'attività fasica della dopamina può regolare l'apprendimento diretto delle politiche comportamentali, espandendo il potere esplicativo dei modelli di apprendimento di rinforzo per l'apprendimento degli animali6.

Gli agenti biologici e artificiali imparano come ottimizzare il comportamento attraverso l'esperienza con un ambiente. La teoria dell'apprendimento per rinforzo descrive gli algoritmi che consentono a un agente di migliorare iterativamente il proprio successo attraverso la formazione3. L'esperienza con l'ambiente può essere valutata sia dal successo della "politica" comportamentale di un agente che determina direttamente le azioni eseguite ("apprendimento delle politiche") o dalle aspettative soggettive di ricompensa di un agente che guidano indirettamente l'azione ("apprendimento del valore"). Negli ultimi decenni molto lavoro ha esplorato il modo in cui l'attività dei neuroni dopaminergici (mDA) del mesencefalo corrisponde ai segnali di aggiornamento previsti (errori di previsione della ricompensa (RPE)7) per l'apprendimento del valore4. Tuttavia, l’attività di mDA riflette anche un mix eterogeneo di segnali e funzioni che potrebbero non essere completamente affrontati dalle previsioni dei modelli di value learning8,9,10,11,12. L'attività fasica dell'mDA può essere intrecciata con la produzione e il monitoraggio dell'azione10,13,14,15,16,17,18 ed è determinata almeno in parte dagli input provenienti dalle aree coinvolte nella determinazione della politica comportamentale19. Ciò richiede un'esplorazione di come l'ampliamento della portata degli algoritmi di apprendimento di rinforzo considerati potrebbe informare la nostra comprensione dei segnali mDA fasici negli agenti biologici.

L'apprendimento politico diretto offre specificamente un potenziale non sfruttato5,20 per fornire "primitivi computazionali e meccanicistici"6 che spieghino le funzioni della dopamina, soprattutto nel contesto dell'acquisizione di nuovi compiti da parte degli animali. In primo luogo, i metodi di policy learning diretto hanno ottenuto un successo sostanziale nei problemi di apprendimento incarnato nella robotica che assomigliano ai problemi affrontati da un animale che si comporta bene1. In secondo luogo, in un’ampia gamma di condizioni, il policy learning è il modello di apprendimento per rinforzo più parsimonioso in grado di spiegare il comportamento appreso5. In terzo luogo, l’apprendimento delle politiche può essere guidato direttamente da segnali di errore di prestazione comportamentale (PE), in sostituzione o in aggiunta agli RPE21,22, collegandoli a diverse osservazioni di apprendimento nelle aree cerebrali riceventi la dopamina23,24. Infine, i metodi di policy learning facilitano la modellazione esplicita della variabilità significativa25 nelle traiettorie di apprendimento comportamentale individuale come ricerca attraverso lo spazio delle parametrizzazioni delle politiche1.

In effetti, il fatto che le traiettorie di apprendimento possano essere troppo variabili può costituire una critica alla ricerca politica; sebbene favorisca la modellazione delle differenze individuali, questa caratteristica può produrre un apprendimento non ottimale26,27. Una soluzione efficace consiste nell'impostare una dimensione di aggiornamento ottimale per ciascuna prova in base ad alcune euristiche sull'utilità di ciascuna prova per l'apprendimento2. Farlo indipendentemente dal feedback sulle prestazioni che dirige l'apprendimento può migliorare la variabilità utile sopprimendo al tempo stesso il rumore1,26,28. Tali “tassi di apprendimento adattivo” hanno portato a progressi fondamentali nell’apprendimento automatico28 e possono anche rendere più accurati i modelli di apprendimento degli animali29. Pertanto, le intuizioni derivanti dall’apprendimento delle politiche portano a un’ipotesi interessante per l’attività fasica dell’mDA che finora non è stata esplorata. L'attività mDA fasica potrebbe essere un utile segnale del tasso di apprendimento adattivo, date le sue correlazioni con stimoli nuovi e salienti12, azioni imminenti13 ed errori di previsione7, che sono tutti euristiche utili per identificare i momenti chiave durante i quali i tassi di apprendimento dovrebbero essere elevati. In alternativa, l’attività mDA è correlata agli EP durante l’apprendimento del canto degli uccelli30, suggerendo che nei mammiferi potrebbe anche dettare aggiornamenti basati sugli errori alle politiche comportamentali, un ruolo più analogo alla trasmissione degli RPE per l’apprendimento di valore. Per distinguere tra queste possibilità è necessaria la creazione di modelli di policy learning relativi ai compiti canonici comportamentali degli animali.

 0.99). Thus, within this context (although not necessarily others42), the magnitude of NAc–DA cue signals correlates only with learned changes in behavioural policy but does not seem to directly regulate preparatory behaviour in anticipation of reward delivery9,43./p>15 air changes hourly. Each ventilated cage (Allentown) was provided with corncob bedding (Shepard Specialty Papers), at least 8 g of nesting material (Bed-r’Nest, The Andersons) and a red mouse tunnel (Bio-Serv). Mice were maintained on a 12:12-h (8 am–8 pm) light/dark cycle and recordings were made between 9 am and 3 pm. The holding room temperature was maintained at 21 ± 1 °C with a relative humidity of 30% to 70%. Irradiated rodent laboratory chow (LabDiet 5053) was provided ad libitum. Following at least 4 days recovery from headcap implantation surgery, animals’ water consumption was restricted to 1.2 ml per day for at least 3 days before training. Mice underwent daily health checks, and water restriction was eased if mice fell below 75% of their original body weight./p>20 days post-injections using custom-built fibre photometry systems (Fig. 2a)56. Two parallel excitation–emission channels through a five-port filter cube (FMC5, Doric Lenses) allowed for simultaneous measurement of RCaMP1b and eYFP fluorescence, the latter channel having the purpose of controlling for the presence of movement artefacts. Fibre-coupled LEDs of 470 nm and 565 nm (M470F3, M565F3, Thorlabs) were connected to excitation ports with acceptance bandwidths of 465–490 nm and 555–570 nm, respectively, with 200-μm, 0.22-NA fibres (Doric Lenses). Light was conveyed between the sample port of the cube and the animal by a 200-μm-core, 0.39-NA fibre (Doric Lenses) terminating in a ceramic ferrule that was connected to the implanted fibre cannula by a ceramic mating sleeve (ADAL1, Thorlabs) using index matching gel to improve coupling efficiency (G608N3, Thorlabs). Light collected from the sample fibre was measured at separate output ports (emission bandwidths 500–540 nm and 600–680 nm) by 600-μm-core, 0.48-NA fibres (Doric Lenses) connected to silicon photoreceivers (2151, Newport)./p> treward/p>3%) and perfused with ice-cold phosphate-buffered saline, followed by paraformaldehyde (4% wt/vol in phosphate-buffered saline). Brains were post-fixed for 2 h at 4 °C and then rinsed in saline. Whole brains were then sectioned (100 μm thickness) using a vibrating microtome (VT-1200, Leica Microsystems). Fibre tip positions were estimated by referencing standard mouse brain coordinates70./p>