(リ)コンディショニングメモ

主にトレーニング、理学療法、リハビリテーションに関することについて。理学療法士が管理しています。

神経科学 運動学習

「報酬」と「運動学習」について

2018/08/22

報酬とは

多様な「報酬」も生理的報酬、学習獲得的報酬、内発的報酬の3つに分けて考えることができる。

「生理的報酬」とは、食べ物、飲み物、快適な温度、性的パートナーなど、生命の維持や繁殖を実現する上でなくてはならないものを指す。

「学習獲得的報酬」とは、人の世界におけるお金のように、それ自体は生命の維持や繁殖に役立たないものの、食べ物、飲み物などに結びついていることが学習によって獲得されたものであり、生物にそれを求めたオペラント行動を促すものである。動物の場合でも、中性的刺激が常に生理的報酬と対で提示されると、その中性的刺激自体が報酬と同じ価値を持つ(快をもたらす、それを求めて動物は行動する)ようになる。

「内発的報酬」とは、人における心地よい音楽のように、それ自体は生存や繁殖に必要なものではなく、また生理的報酬と結びついたものではないものの、その獲得が生物に快をもたらすと考えられるものである。

苧阪直行 編:報酬を期待する脳, 60. 新曜社, 2014.

これら3つ以外にも、「嫌悪刺激の除去」も報酬と考えられると述べられています。これら報酬に共通していることは、行動の動機づけになるものと言うことが出来ると思います。

「生理的報酬」「学習獲得的報酬」「嫌悪刺激の除去」は、生存や繁殖に直接関わりがあると言えます。「内発的報酬」は、生存や繁殖に直接関わりがないが快をもたらすものです。

人間で考えると、「お金」=「学習獲得的報酬」、「お金」≠「内発的報酬」というわけではないと考えることも出来ます。お金によって生存や繁殖に直接関係のない快を得ることが出来る、お金をより稼ぐことで社会的地位を得ようとするといった観点もあると思います。

しかし、社会的地位も人間社会での生存という意味で考えると、学習獲得的報酬と考えることも出来ます。そのように考えると、様々な報酬はそれぞれ独立したものではないという捉え方もあると思います。ただ先ほど書いたように、それぞれの報酬に共通していることは、行動の動機づけになるということです。

運動学習の3つのタイプ【強化学習】

強化学習、教師あり学習、教師なし学習

受け取る報酬が最大になるように行動選択を学習させるための理論として強化学習があります(Doya K, 2002)。 強化学習は、Doyaによる運動学習における3つの戦略のうちの1つです。

Doya K, 2000より引用

強化学習(reinforcement learning)

強化学習は機械学習の分野の1つです。受け取る報酬が最大になるように行動選択を学習させるための理論です(Doya K, 2002) 。

ドーパミンと報酬予測誤差

【ドーパミン神経は報酬予測誤差を報告する?】

CS:予告 R:報酬 no CS:予告なし no R:報酬なし

Schultz W, 1997より引用

この研究はサルを対象にジュースを報酬としたものです。結果は以下の通りです。

■予告なく報酬が与えられるとドーパミン神経は興奮した。

■報酬が予告されるとドーパミン神経は興奮し、予告通り報酬が与えられると興奮は高まらなかった。

■報酬が予告されるとドーパミン神経は興奮し、報酬が与えられないとドーパミン神経は興奮は抑制された。

この結果から、報酬そのものと言うよりも、報酬を予測すること、正の報酬予測誤差によってドーパミン神経が興奮するということになります。

報酬予測誤差が正の値であればその行動を促進する、負の値であればその行動を抑制するという行動の選択に繋がります。最大の報酬を目指すための行動の選択として、報酬予測誤差の情報を利用します。

報酬期待の認知行動学的意義

筒井と小山は著書の中で、報酬期待の認知行動学的意義の主なものとして、2つ挙げています。

・自律神経系に働きかけて覚醒(arousal)水準を上げるとともに、情動・動機づけを高めることである。これにより、報酬が目の前に現れたときに獲得行動を確実に起こせるよう準備状態を形成するとともに、報酬を獲得するために何らかの課題を遂行している場合には、その遂行能力も向上させる効果がある。

・報酬期待が学習において重要な役割を果たしているということである。機械学習のアルゴリズムとして有効であることが知られているサットンとバルトー(Sutton & Barto 1998)の強化学習(reinforcement learning)では、報酬の期待をもとにして計算された報酬予測誤差を学習の強化信号として利用している。一般に、報酬そのものではなく、報酬予測誤差を強化信号として使うことの利点は、強化や消去の成立過程が線形ではなく指数関数的になることで、変動する環境における報酬随伴性の変化に効率的に対応できることである。

苧阪直行 編:報酬を期待する脳, 115-116. 新曜社, 2014.

未来志向的な意識

報酬は行動の動機づけとなります。運動学習を図る上では運動を実践することが必要となります。運動イメージのように運動を実際に行わず運動学習を図るということもありますが、経験したことのない運動はイメージすることが困難であることや、運動学習というプロセスにおいて運動イメージのみでは不十分であるケースは容易に想像出来ると思います。

現状と目標によって違ってきますが、運動の実践なしで運動スキルを向上させることには限界があるはずです。例が極端すぎますが、運動イメージのみでトップレベルのアスリートになるのは困難ですし、そもそも試合を経験する以上は運動を伴うわけですから、結局のところ運動の実践なしに運動スキルを向上させるという想定自体、かなり限られたケースになると言えます。

そう考えると、運動パフォーマンスの向上には、運動の実践が必要であり、その動機づけとしての報酬を考える必要があると思います。アスリートであれば、試合に勝ちたい、もっと良い記録を目指したいといった目標が、トレーニングや練習に取り組む動機になります。

この場合、トレーニングや練習をしてすぐに、その目標が達成されるわけではありません。「目標を達成するために必要なことだ」という未来志向的な意識、未来にある(未来に手に入れたい)報酬に向けて励む、つまり未来の報酬を期待することが、動機となると言えます。

報酬期待の情報は、前頭前野背外側部や頭頂連合野から注意系へ、前頭眼窩部・扁桃体や、前帯状皮質から、情動・自律神経系へと伝えられ、報酬の獲得行動のパフォーマンスを向上させるように作用する。

苧阪直行 編:報酬を期待する脳, 133. 新曜社, 2014.

また、未来志向的な意識の指す「未来」がどれくらい先かということですが、4年後のオリンピックを目指すのであれば、4年後の未来と言えます。しかし、実際には「目標を達成するための取り組み」が、どれくらいの成果を上げているかということも重要で、その積み重ねが4年後(時間経過するので減っていきますが)の目標達成に近づいているという実感が必要になります。

つまり、短期的な目標の達成という積み重ねが、動機づけ(報酬)となるということです。全く進歩がないままオリンピック開催が近づいてくると、十分な能力を有しているわけでなければ、目標達成のイメージは困難でしょうし、目標達成もまた困難と考えられます。

動機づけのプロセスと主な脳領域

【動機づけのプロセスにおける連続的な3つのサブプロセス】

Kim SI, 2013より引用

【動機づけのプロセスにおける主な脳領域】

Kim SI, 2013より引用

モチベーションの連続的なプロセス

Kimは、モチベーションを3つの連続的なプロセスであるとしました。その3つは、「Generation of motivation(モチベーションの生成)」「Maintenance of motivation(モチベーションの維持)」「Regulation of motivation(モチベーションの調整)」です。

■「Generation of Motivation(モチベーションの生成)」

報酬の期待と報酬に基づく選択的な行動によってモチベーションが生成されます。主に腹側線条体の働きによる基本的な刺激-行動による比較的注意を必要としないプロセスです。

■「Maintenance of Motivation(モチベーションの維持)」

価値判断に基づく意思決定は、行動の様々な結果を評価し、正の報酬予測誤差で学習します。線条体および眼窩前野皮質は、意欲を維持するために重要な役割を果たします。

■「Regulation of Motivation(モチベーションの調整)」

未来志向的な制御によるとしています。目標を達成するための認知的な制御によってモチベーションを調節するプロセスです。この意識的に制御されたモチベーションは、計画、目標の維持、パフォーマンスのモニタリング、行動の調整などのより高度な認知機能と関連しています。前帯状回、前頭前野背外側部は、モチベーションの調節に関連する主な神経回路です。

報酬が運動学習に与える影響

好奇心の充足~Harlowによる実験~

運動学習を図る上では運動を実践することが必要となります。実践する動機は様々あると考えられます。Harlowによるサルの実験では、それ自体は生理的報酬となり得ないが、パズルのようなものを解くことに熱中しました。これは好奇心の充足と呼ばれるものです。つまり、その課題自体に興味を持つことが、課題を行う動機になると捉えることが出来ます。

競争による動機づけ~Hosokawaらの実験~

競争による動機づけもあります。Hosokawaらによるサルの実験では、競争があるゲームではないゲームよりもパフォーマンスが高くなりました。また、競争に勝って得た報酬(ジュース)による前頭連合野の活動は、競争のない報酬よりも大きかったという結果になりました。

Hosokawa et al, 2012より引用

競争条件(MON-MON competition)と競争がない条件(MON-COM competition)で弾を的に当てるゲーム。Hは弾が当たった時点、Rは報酬が与えられた時点(NRは報酬が与えられない)を表しています。

サルの前頭連合野の活動はより価値のある報酬が得られた際に大きな活動をします(Watanabe, 1996)。つまり、競争に勝つことによって得る報酬は、競争がなく得る報酬よりも、価値のあるものであると考えることが出来ます。

他者からの称賛が運動スキルに影響を与える~Sugawaraらの実験~

他者から称賛を受けることで、運動スキルが改善するという研究があります(Sugawara SK et al, 2012)【参照 褒めることが運動スキルの改善に影響を与える?】。他者からの称賛は内発的報酬に含まれる社会的報酬です。

この研究は、他者からの称賛によって練習に対する動機づけがなされて、練習に励んだ結果、運動スキルが改善したという文脈ではなく、称賛がオフラインでの改善を強化したというものです。

金銭的報酬とパフォーマンス~Abeらの実験より~

また、報酬による運動パフォーマンスの向上と維持について調べたAbeらの研究があります。報酬群、罰群、コントロール群(どちらも与えられない群)の3群に分けました。

Abe M et al, 2011より引用

Abe M et al, 2011より引用

トレーニングから6時間後、24時間後、30日後のパフォーマンスは、報酬群が罰群やコントロール群よりパフォーマンスは高く維持されていました。また、パフォーマンスのエラーは罰群、コントロール群においてトレーニング24時間後と比較して30日後に増加しました。

アンダーマイニング効果

内発的な動機が外発的な動機づけによって低下する現象をアンダーマイニング効果と言います。既に動機づけられているケースでは、注意が必要だと言えます。

まとめ

報酬は行動の動機づけになると言えます。他者からの称賛といった社会的報酬による運動スキルの改善が話題になり、「褒めることが大事」だとよく言われています。

しかし報酬は多様であり、対象者、対象者の状態や段階、目標(短期~長期)を考慮して、より効率的な運動学習を図るために、どのような動機づけを行うかを考える必要があると考えています。

様々な報酬がそれぞれ独立しているわけではないので、動機もひとつとは限りませんが、こういった分類や特徴を知ることで視点が増え、指導において活用出来ることもあると思います。

【関連記事】

【参考文献】

Abe M et al:Reward improves long-term retention of a motor memory through induction of offline memory gains. Curr Biol. 21(7):557-562, 2011.

Doya K:Complementary roles of basal ganglia and cerebellum in learning and motor control. Curr Opin Neurobiol. 10:732-9, 2000.

Doya K:Metalearning and neuromodulation. Neural Netw. 15(4-6):495-506, 2002.

Harlow HF:Learning and satiation of response in intrinsically motivated complex puzzle performance by monkeys. J Comp Physiol Psychol. 43(4):289-94, 1950.

Hosokawa T et al:Prefrontal neurons represent winning and losing during competitive video shooting games between monkeys. J Neurosci. 32(22):7662-7671, 2012.

Kim SI:Neuroscientific model of motivational process. Front Psychol. 4:98, 2013.

Schultz W et al:A neural substrate of prediction and reward. Science. 275(5306):1593-1599, 1997.

Schultz W:Predictive reward signal of dopamine neurons. J Neurophysiol. 80:1-27, 1998.

Sutton RS et al:Reinforcement learning:An introduction. IEEE Transactions on Neural Networks:9(5),1054,1998.

Wächter T et al:Differential effect of reward and punishment on procedural learning. J Neurosci. 29(2):436-43, 2009.

Watanabe  M:Reward expectancy in primate prefrontal neurons. Nature. 382(6592):629-32, 1996.

-神経科学, 運動学習
-, , ,