逆転学習 reversal learning

other_topics/brain/reversal_learning
5-13-2017 updated

概要: reversal learning とは
- 定義
- Set-shifting
- 実験例
- 学習との違い
Probabilistic reversal learning
Perseverative/learning errors
関係する脳領域
- Prefrontal cortex (PFC)
- Orbitofrontal cortex (OFC)
- OFC と逆転学習の詳細
病気、薬物、老化と reversal learning

概要: 逆転学習 reversal learning とは

定義 definition

逆転学習 reversal learning とは、学習訓練の途中または完成後に課題の正負が逆転し、引き続き訓練が行われるような学習のことをいう。この能力が低い個体は、状況に応じて行動を変える能力が低いとみなされる。

Reversal learning が示すもの (このページに示すような実験で測定されるもの) は、次のような言葉で表現される (8): behavioral flexibility, cognitive flexibility, cognitive control, inhibitory control, impulse control, response inhibition, behavioral inhibition.

Set shifting

Reversal learning と近い概念として、set shifting というものがある。両者はよく似ているが、「課題の正負がシンプルに逆転する」状況に対応する能力が reversal learning、課題の内容自体を本質的に変えるような変化に対応するのが set-shifting と考えてよい。

文献 9 では、「逆転学習は simple form of behavioral flexibility entailing shifts between different stimulus - reward associations within a particular dimension」と表現されている。以下に両者の違いをまとめた表を示す (6I)。

	Reversal learning	Set-shifting
What is shifted	Response strategy within a single stimulus dimension (6I) Intra-dimensional shift: e.g. left lever to right lever, sound A to sound B	Behavioral strategy from one stimulus dimension to another (6I) Extra-dimensional shift: e.g. shift from light to noise
Brain regions involved	Primates: OFC, ventromedial PFC Rodents: OFC	Primates: dorsolateral PFC Rodents: mPFC

実験例

以下は報酬を使った動物実験の一例である (1) 。

対象は、まず何らかの報酬 reward (e.g. チーズ) をもたらすような cue (音A) を、嫌悪をもたらす aversive cue (音B) または何ももたらさない cue から区別 discrimination するように学習させられる。
対象が rewarding cue に反応し、aversive cue に対する反応を自制するようになったら、discrimination が完成したとみなす。要するに、音 A を聞いたら餌が出てくる扉に寄っていくが、音 B を聞いたら近づかないといった反応である。
次に、rewarding cue と aversive cue を逆転する。これらに対する discrimination が完成したとき、reversal lerning が行われたとする。つまり、初期段階には音 A で扉に近づくが、何ももらえないことを学習し、音 B で扉に近づくようになるということである。

このパターンを基本として、以下のように様々なバリエーションが存在する。1) 生物種、2) 報酬に繋がる刺激、3) aversive cue の有無などが異なっている。

生物種	刺激	例
ラット	嗅覚刺激
ラット、ヒト、サル、マウス	視覚刺激	Touch screen の使用が一般的になってきている。
Rodent	Operant discriminations	自動で測定できる箱のような装置がある。
Rodent	迷路	T 迷路、水迷路などでの実地例がある。

ヒトでは、もう少し複雑な実験が確立されているようである (2)。

たとえば Winconsin card sorting task または ID/ED set-shifting task。

「学習」と「逆転学習」の違い

Reversal learning は一見シンプルな作業であるが、実際は initial discrimination よりも複雑である (2)。

Initial discrimination では、対象は cue, response, outcome の関係を学習することになる。状況によって、シンプル/複雑、rewarding/aversive などの条件が変わることになる。

Reversal learning では、学習した内容を全て同時に変化させ、かつ以前に学習した行動の inhibition までが求められる (2)。

Probabilistic reversal learning

Probabilistic reversal learning とは、以下のように正解と不正解が一定の確率で与えられるような reversal learning のことである。複数回のテストで受けたフィードバックを integrate して判断しなければならないので、その分難易度が高いことになる。

確率でなく、正解の場合には常に報酬が与えられるような実験系は deterministic と表現される。

実験例 1 (human, ref 5):

被験者は、以下のように赤と青のパネルがあるモニターを提示される。「一方のパネル (図では赤) を選ぶのが正解である」と決まっているが、これは被験者には知らされない。
正解のパネルを選ぶと、正解であることが表示され、5 セントをもらうことができる (valid positive feedback)。不正解を選ぶとそれが表示され、5 セントを奪われる。
ただし、正解でも「不正解」が表示され、5 セントを奪われてしまうことがある (invalid positive feedback)。通常は、この意地悪な現象は正解に対して 20% 程度の確率で起こるように設定される。
途中で「正しいパネル」がスイッチする。被験者はこの変化に対応しつつ、なるべく多くの報酬を獲得することを目指す。

実験例 2:

ID/ED set-shifting task では、対象は 2 通りの stimulus-response choise を与えられ、フィードバックを通してどちらが正しいかを学習 learning する。音 A を聞いたときにボタン 1 を押すと正解、ボタン 2 を押すと不正解。音 B を聞いたときにはボタン 1 を押すと不正解、ボタン 2 が正解のような形と思われる。
ここで、不正解のときには必ず不正解と教えてくれると reversal learning をテストすることになるが、不正解のとき 80% の確率で不正解と教えてくれるようにすると、probabilistic reversal learning のテストになる。

動物を使った実験の場合:

Probabilistic reversal learning is characterized by the sudden reversal of a probabilistically learned relationship of value between stimuli... (3) とある。
たとえば 80% の確率でエサがもらえる cue と、20% の確率でエサがもらえる cue を使った条件付け、といったイメージ。aversive cue を使わない？

Pereseverative error と learning error

Reversal learning では、古いルール (e.g. 左のレバーを押すと餌がもらえる) を撤回し、新しいルール (e.g. 右のレバーを押すと餌がもらえる) を新たに学習しなければならない。どちらの段階がうまくいっていないかによって、間違いを分類することができる。

Perseverative error

古いストラテジーに基づいた結果の間違い。右のレバーで餌が出るようになったのに、左のレバーを押し続けるようなエラー。通常は、一定回数以上 (文献 7 では 6 回以上) 同じ間違いを繰り返したときに、エラーとして記録される。

preservative 「保存的な」だと思っていたが、perseverative 「固執的な」だったので訂正。perseverate 「ある行動を執拗に繰り返す」という単語から。

Learning error

ストラテジーを学習できないために起こるエラーか？要確認。

関係する脳領域

かつては、PFC, OFC が逆転学習の能力と関係することが報告されていた (5I)。現在では、特定の領域というよりは reward processing および decision making に関わるネットワークが重要であると考えられている (5I)。

Prefrontal cortex

Prefrontal cortex (PFC) の関与が指摘されている。

> Ventral PFC contributes the rapid reversal of learned associations (1I).

: Integration and online representation of the reinforcement value of stimulin and actions.

> Medial PFC monitors performance and detection of errors (1I).

> Dopaminergic systems, subcortical structures in basal ganglia (1I).

> Ventral striatum, anterior cingulate cortex (a part of mPFC) (1D).

Orbitofrontal cortex

Orbitofrontal cortex の関与は昔から指摘されている。主な根拠は、OFC の切除 lesion が reversal learning の能力を低下させることである。一般に言われているのは、以下のような点である。詳細は OFC と逆転学習 (ラットを中心に) のページにまとめる。

統合失調症患者の示す reversal learning dysfunctinon は、OFC lesion の症状とよく似ている (1D)。
一般に OFC lesion は discriminarion learning の効率には影響しない。
OFC lesion は逆転学習能力を低下させるが、より複雑な behavioral flexibility の指標である set-shifting には影響しない。

Striatum との関係

ラット medial striatum の切除で、OFC damage と同様に perseverative error が増える (8)。

Default mode network (DMN) との関係

Dorsolateral PFC, dorsomedial PFC, amygdala が DMN の主要な構成領域であり、これらはいずれも ventolateral PFC および ventral striatum とよく connect している。

薬物

> ヒト、primate, C57BL/6 mice で、コカインの使用が reversal learning を阻害する (4I, 4R)。

: コカイン投与で、マウスの reversal learning が低下。
: Acquisition はむしろ増大したので、トレーニングの後にコカイン投与を開始している。
: ヒトとは異なり、attentional function, impulsive responding は変化しなかった。
: 作業記憶 working memory が低下した。

> コカイン cocaine の使用は、PFC の容積、血流、グルコース代謝を低下させることが知られている (4I)。

老化

老化 aging によって逆転学習の能力が低下する (10,11 ほか)。ヒト、霊長類、ラットで再現性高く証明されている。

> Aged rat では、initial discrimination は変わらず、reversal leaning が低下する (11R)。

: OFC に投射するドーパミン神経の活性が低下し、OFC の Tyr hydroxylase活性も低下。
: OFC に D1 受容体アゴニスト SKF81297 注入すると、逆転学習が改善する。

コメント欄

References

Walz and Gold JM. 2007a. Probabilistic reversal learning impairments in schizophrenia: futher evidence of orbitofrontal dysfunction. Schizophrenia Res 93, 296-303.
McDannald et al. 2014a (Review). Learning theory: a driving force in understanding orbitofrontal function. Neurobiol Learning Mem 108, 22-27.
Amazon link: ベアーズら 2007. 神経科学 ― 脳の探求.
Krueger et al. 2009a. Prior chronic cocaine exposure in mice induced persistent alterations in cognitive function. Behav Pharmacol 20, 695-704.
Waltz et al. 2013a. The roles of reward, default, and executive control networks in set-shifting impairments in schizophrenia. PLoS ONE 8, e57257.
Placek et al. 2013a.Impairments in set-shifting but not reversal learning in the neonatal ventral hippocampal lesion model of schizophrenia: Further evidence for medial prefrontal deficits. Behav Brain Res 256, 405-413.
Klanker et al. 2013a. Deep brain stimulation in the lateral orbitofrontal cortex impairs spatial reversal learning. Behav Brain Res 245, 7-12.
Izquierdo & Jentsch 2012a (Review). Reversal learning as a measure of impulsive and compulsive behavior in addictions. Psychopharmacology 219, 607-620.
Floresco et al. 2009a (Review). Neural circuits subserving behavioral flexibility and their relevance to schizophrenia. Behav Brain Res 204, 396-409.
Weiler et al. 2008a. Aging affects acquisition and reversal of reward-based associative learning. Learn Mem 15, 190-197.
Mizoguchi et al. 2010a. Orbitofrontal dopaminergic dysfunction causes age-related impairment of reversal learning in rats. Neuroscience 170, 1110-1119.