脳の画像は学習戦略の仕組みを明らかにする

新しい調査研究では、将来の報酬に対する期待を高めるために、脳がどのようにメモリバンクを更新するかを調査しています。

更新は、変化する環境に直面してこれらの報酬について正確な予測を行うために必要です。

脳がこのプロセスをどのように調整するかは正確には不明ですが、新しい研究では、2つの異なる学習戦略の組み合わせが私たちの行動を導くことを示唆しています。

仕事に関する論文がジャーナルに掲載されます ニューロン.

モデルフリー学習と呼ばれる1つの受け入れられた学習戦略は、特定の状況で期待する報酬と実際に得られる報酬の試行錯誤の比較に依存しています。

この比較の結果は、その差に対応する「報酬予測エラー」の生成です。

たとえば、報酬予測エラーは、金融投資の予測される金銭的リターンと実際の収益との差に対応する場合があります。

モデルベースの学習と呼ばれる2番目のメカニズムでは、脳がさまざまな状況間の関係を表す環境の認知マップを生成します。

「モデルベースの学習は、「状態予測エラー」の生成に関連付けられています。これは、現在の環境の推定値を考えると、新しい状況での脳の驚きのレベルを表します」と、Caltechのポスドク研究者でありリーダー研究の著者。

「仕事の後で家に帰るときはいつも同じルートをたどる状況を考えてください。しかし、特定の日に建設工事のために通常の方法が妨害されています」とGläscherは言います。

「モデルフリーの学習システムはどうしようもなく失われるでしょう。過去にやりがいのあった行動を取ることだけが関係しているので、それらの行動が利用できなくなった場合、次にどこへ行くかを決めることができません。

「しかし、モデルベースのシステムは、その認知マップをクエリし、代替ルートを使用して効率的な迂回路を理解することができます。」

「よりシンプルなモデルフリーの学習メカニズムは十分に研究されており、報酬予測エラーによって駆動されるその基本的な学習メカニズムは比較的よく理解されていますが、豊富な適応性と柔軟性を備えた、より洗練されたモデルベースの学習システムの基礎となるメカニズム、あまりよく理解されていない」とカルテックの心理学教授であるジョンP.オドハーティは言う。

これら2つの学習システムの神経基盤をさらに特徴付けるために、Gläscher、O'Doherty、および彼らの同僚は、脳が報酬と状態予測エラー信号の両方をいつ、どこで計算するかを測定できるコンピュータベースの意思決定タスクを設計しました。 2つのタイプのエラーが実際に異なる神経シグネチャを生成するかどうかを判断します。

課題では、被験者は、仮想環境で、グラフィカルアイコンで示されるさまざまな「状態」間を移動できるように、左右の動きを選択する必要がありました。このプロセスは、単純なビデオゲーム内を移動するプロセスと似ています。

この仮想環境で行われた左または右の選択はそれぞれ、対象を新しい状態に導きました。彼らの目的は、特定の目標状態に到達して金銭的な報酬を得ることであり、「その目標状態に至る可能性は、彼らが行った一連の選択の特定のパターンに強く依存していました」とO’Doherty氏は説明します。

モデルベースのシステムは、仮想環境の構造について学習し、この情報を使用して、チェスプレーヤーが必要な一連のチェスの動きを考えようとするのと同じように、報酬状態に到達するために必要なアクションを計算できます。試合に勝つために。

一方、モデルフリーシステムは、現在の状況での結果を評価せずに、過去に報酬を与えたアクションを盲目的に選択することだけを学習します。

18人の参加者は、タスクを学習したときに、機能的磁気共鳴イメージングを使用してスキャンされました。脳スキャンは、腹部線条体と呼ばれる脳の中央の領域で、モデルフリー学習中に生成された、報酬予測エラーの特徴的で以前に特徴付けられた神経サインを示しました。

ただし、モデルベースの学習中に、状態予測エラーの神経シグネチャは、大脳皮質の脳の表面の2つの異なる領域、頭頂内溝および側頭前頭前野に現れました。

これらの観察は、2つのユニークなタイプのエラー信号が人間の脳で計算され、異なる脳領域で発生し、行動を導くための別々の計算戦略を表す可能性があることを示唆しています。

「モデルフリーシステムは、高度に自動化され、反復的な状況で非常に効果的に機能します。たとえば、同じルートを仕事から家まで定期的に持ち帰る場合」と、Gläscher氏は言います。処理能力は、ロードブロッキングに続く新しいルートを見つける必要があるなど、新しい状況に柔軟に対応できます。」

これら2つの異なる学習メカニズムは、人間の行動を制御する上で補完的な役割を果たすと、グレーシャーは述べています。

「私たちの頭脳の処理能力は限られているため、私たちが行うすべてを制御するために、より計算集約的なモデルベースのシステムを展開することは意味がありません。代わりに、日常の行動の多くをモデルフリーシステムに依存し、新しいまたは複雑な状況でのみモデルベースシステムを使用することをお勧めします。さらなる研究の重要な領域は、行動を制御するためにこれらのシステムがどのように相互作用するかを支配する要因を理解し、これが脳でどのように実装されるかを決定することです。」

出典:カリフォルニア工科大学

!-- GDPR -->