Furukawa YOFC UI Lapp GmbH Phoenix Mecano AG METZ CONNECT Sterlite Power Nexans HUBER+SUHNER Neutrik Rosenberger OSI eks Engel GmbH & Co. KG Ipcom CommScope Prysmian Group Pepperl+Fuchs SE SCHMERSAL SIEMENS BOSCH
Jul 29, 2023Furukawa YOFC UI Lapp GmbH Phoenix Mecano AG METZ CONNECT Sterlite Power Nexans HUBER+SUHNER Neutrik Rosenberger OSI eks Engel GmbH & Co. KG Ipcom CommScope Prysmian Group Pepperl+Fuchs SE SCHMERSAL SIEMENS BOSCH
Nov 27, 2023Amplificatori CATV Tendenze del mercato 2023 con analisi sui principali attori Braun Group, Analog Devices, Skyworks, Blonder Tongue, Hangzhou Tuolima Network Technologies, Multicom, Freescale Semiconductor, Qorvo, MACOM, Comtech Xicom Technology, NXP Semiconductors, Vision Products
Jul 18, 2023Furukawa YOFC UI Lapp GmbH Phoenix Mecano AG METZ CONNECT Sterlite Power Nexans HUBER+SUHNER Neutrik Rosenberger OSI eks Engel GmbH & Co. KG Ipcom CommScope Prysmian Group Pepperl+Fuchs SE SCHMERSAL SIEMENS BOSCH
Jun 10, 2023Amplificatori CATV Tendenze del mercato 2023 con analisi sui principali attori Braun Group, Analog Devices, Skyworks, Blonder Tongue, Hangzhou Tuolima Network Technologies, Multicom, Freescale Semiconductor, Qorvo, MACOM, Comtech Xicom Technology, NXP Semiconductors, Vision Products
Oct 21, 2023La dopamina mesolimbica adatta la velocità di apprendimento dall'azione
Natura volume 614, pagine 294–302 (2023) Citare questo articolo
20mila accessi
2 citazioni
109 Altmetrico
Dettagli sulle metriche
Il recente successo nella formazione di agenti artificiali e robot deriva da una combinazione di apprendimento diretto delle politiche comportamentali e apprendimento indiretto attraverso funzioni di valore1,2,3. L’apprendimento delle politiche e l’apprendimento del valore utilizzano algoritmi distinti che ottimizzano rispettivamente le prestazioni comportamentali e la previsione delle ricompense. Negli animali, l'apprendimento comportamentale e il ruolo della segnalazione mesolimbica della dopamina sono stati ampiamente valutati rispetto alla previsione della ricompensa4; tuttavia, finora si è tenuto poco conto di come l’apprendimento diretto delle politiche possa informare la nostra comprensione5. Qui abbiamo utilizzato un set di dati completo di movimenti orofacciali e del corpo per capire come le politiche comportamentali si sono evolute quando topi ingenui e con la testa trattenuta hanno imparato un paradigma di condizionamento delle tracce. Le differenze individuali nelle risposte iniziali di ricompensa dopaminergica erano correlate con l'emergere di politiche comportamentali apprese, ma non con l'emergere di una presunta codifica di valore per un segnale predittivo. Allo stesso modo, manipolazioni fisiologicamente calibrate della dopamina mesolimbica hanno prodotto diversi effetti incoerenti con l’apprendimento del valore ma previsti da un modello basato su rete neurale che utilizzava segnali della dopamina per impostare un tasso adattivo, non un segnale di errore, per l’apprendimento delle politiche comportamentali. Questo lavoro fornisce una forte prova del fatto che l'attività fasica della dopamina può regolare l'apprendimento diretto delle politiche comportamentali, espandendo il potere esplicativo dei modelli di apprendimento di rinforzo per l'apprendimento degli animali6.
Gli agenti biologici e artificiali imparano come ottimizzare il comportamento attraverso l'esperienza con un ambiente. La teoria dell'apprendimento per rinforzo descrive gli algoritmi che consentono a un agente di migliorare iterativamente il proprio successo attraverso la formazione3. L'esperienza con l'ambiente può essere valutata sia dal successo della "politica" comportamentale di un agente che determina direttamente le azioni eseguite ("apprendimento delle politiche") o dalle aspettative soggettive di ricompensa di un agente che guidano indirettamente l'azione ("apprendimento del valore"). Negli ultimi decenni molto lavoro ha esplorato il modo in cui l'attività dei neuroni dopaminergici (mDA) del mesencefalo corrisponde ai segnali di aggiornamento previsti (errori di previsione della ricompensa (RPE)7) per l'apprendimento del valore4. Tuttavia, l’attività di mDA riflette anche un mix eterogeneo di segnali e funzioni che potrebbero non essere completamente affrontati dalle previsioni dei modelli di value learning8,9,10,11,12. L'attività fasica dell'mDA può essere intrecciata con la produzione e il monitoraggio dell'azione10,13,14,15,16,17,18 ed è determinata almeno in parte dagli input provenienti dalle aree coinvolte nella determinazione della politica comportamentale19. Ciò richiede un'esplorazione di come l'ampliamento della portata degli algoritmi di apprendimento di rinforzo considerati potrebbe informare la nostra comprensione dei segnali mDA fasici negli agenti biologici.
L'apprendimento politico diretto offre specificamente un potenziale non sfruttato5,20 per fornire "primitivi computazionali e meccanicistici"6 che spieghino le funzioni della dopamina, soprattutto nel contesto dell'acquisizione di nuovi compiti da parte degli animali. In primo luogo, i metodi di policy learning diretto hanno ottenuto un successo sostanziale nei problemi di apprendimento incarnato nella robotica che assomigliano ai problemi affrontati da un animale che si comporta bene1. In secondo luogo, in un’ampia gamma di condizioni, il policy learning è il modello di apprendimento per rinforzo più parsimonioso in grado di spiegare il comportamento appreso5. In terzo luogo, l’apprendimento delle politiche può essere guidato direttamente da segnali di errore di prestazione comportamentale (PE), in sostituzione o in aggiunta agli RPE21,22, collegandoli a diverse osservazioni di apprendimento nelle aree cerebrali riceventi la dopamina23,24. Infine, i metodi di policy learning facilitano la modellazione esplicita della variabilità significativa25 nelle traiettorie di apprendimento comportamentale individuale come ricerca attraverso lo spazio delle parametrizzazioni delle politiche1.
In effetti, il fatto che le traiettorie di apprendimento possano essere troppo variabili può costituire una critica alla ricerca politica; sebbene favorisca la modellazione delle differenze individuali, questa caratteristica può produrre un apprendimento non ottimale26,27. Una soluzione efficace consiste nell'impostare una dimensione di aggiornamento ottimale per ciascuna prova in base ad alcune euristiche sull'utilità di ciascuna prova per l'apprendimento2. Farlo indipendentemente dal feedback sulle prestazioni che dirige l'apprendimento può migliorare la variabilità utile sopprimendo al tempo stesso il rumore1,26,28. Tali “tassi di apprendimento adattivo” hanno portato a progressi fondamentali nell’apprendimento automatico28 e possono anche rendere più accurati i modelli di apprendimento degli animali29. Pertanto, le intuizioni derivanti dall’apprendimento delle politiche portano a un’ipotesi interessante per l’attività fasica dell’mDA che finora non è stata esplorata. L'attività mDA fasica potrebbe essere un utile segnale del tasso di apprendimento adattivo, date le sue correlazioni con stimoli nuovi e salienti12, azioni imminenti13 ed errori di previsione7, che sono tutti euristiche utili per identificare i momenti chiave durante i quali i tassi di apprendimento dovrebbero essere elevati. In alternativa, l’attività mDA è correlata agli EP durante l’apprendimento del canto degli uccelli30, suggerendo che nei mammiferi potrebbe anche dettare aggiornamenti basati sugli errori alle politiche comportamentali, un ruolo più analogo alla trasmissione degli RPE per l’apprendimento di valore. Per distinguere tra queste possibilità è necessaria la creazione di modelli di policy learning relativi ai compiti canonici comportamentali degli animali.