The 38th Annual Meeting of the Cognitive Science Society

米国はフィラデルフィアのPennsylvania Convention Centerで開催された標題の学会（通称CogSci）に出席しました。この学会には初めて参加するのですが、認知科学全体をカバーしているだけあり（私がよく参加しているEUROSLAやCLなどと比べて）規模が大きく、950人が事前登録していたそうです。ただ認知科学と言っても（近年は？）認知心理学周辺の研究が多く、本学会でもその傾向は顕著でした。また私が見た範囲では研究の水準が高く、レベルがピンキリのCLなどと比べると面白い研究が多い印象を受けました。とは言え採択率が低いわけではなく、今回は口頭発表で3割強、ポスター発表で更に3割強が採択されたようです。ただし、CogSciではアブストラクトではなく2段組6ページの論文で審査を行い、その論文が予稿集として公開されます。つまりそもそも発表申し込みをするためには6ページの論文を書かなければならず、望みがないと判断した場合、その前段階で発表を諦めるのかもしれません。

本学会前日にはワークショップ・チュートリアルが多数開講されるのですが、私は「認知・意思決定の量子モデル」とどちらにしようか迷った結果、深層学習のワークショップ（Contemporary Deep Neural Networks）に参加しました。コネクショニズムのモデルで有名なJames McClelland氏らが主催者なのですが、蓋を開けてみると既に深層学習についてそれなりに知識がある参加者向けで、深層学習はおろか、ニューラルネットワークモデルを一度も走らせたことのない私のような参加者（ほとんどいなかったように思いますが）にはついていくのが難しい内容でした。それでもGoogle DeepMindの人の話を聞ける機会は我々の分野ではそうありませんし、興味深い経験ではありました。

認知科学の学会なので第二言語習得に関する研究は少なく、三件あった基調講演はいずれも言語に関するものではありませんでしたが、それでも言語処理に関する発表や副次的に言語獲得に言及する発表は多く、少なくとも個別発表に関しては十分に面白いと感じることができました。またニューラルネットワーク系のものを中心とする学習・習得のコンピューターモデルを用いた研究が多く、これはEUROSLAなどには見られない傾向だと思います。脳機能イメージングなど脳を見る研究は思っていたよりも少なかった印象です。

私は「Longitudinal L2 Development of the English Article in Individual Learners」というタイトルでポスター発表を行いました。用いたポスターはこちらにアップロードしています。また論文はこちらから読むことができます。ポスター発表自体は1時間半のセッションで5-6名にしか来てもらえませんでしたが、第二言語習得研究に携わっている参加者は決して多くないこと、セッション当たり160件を超えるポスター発表が同時進行で行われたこと、ポスターセッションは（会場外で各自でとる）昼食直後であることを考えると、やむを得ないのかもしれません。ただし、後ほど知人に助言を受けたように、あまり第二言語習得である旨を前面に押し出さず、より汎用的な知見・示唆を中心に据えたタイトル・内容にした方が良かったように思います。これは学会の参加者層に考えを巡らせなかった私のミスです。今後のCogSciで発表する機会があれば、もう少し広く学会がカバーする分野を見て発表内容等を決めようと思います。

本学会で私が拝聴した中でとりわけ面白いと感じたのがランカスター大学のPadraic Monaghan氏による「Degeneracy results in canalisation of language structure: A computational model of word learning」という発表です。こちらから論文を読むことができます。論文の概要は以下の通りです。

背景

言語インプットは人によって異なるのに、人々がおおよそ同じ言語体系を獲得できるのはなぜか（canalisationの問題）
従来はインプットの構造化に制約を与える（生得的な言語特性など）ことにより、それを説明しようとしてきた
しかし近年、コミュニケーション時に存在する複数の情報を組み合わせることにより、その学習が可能となっているのではないかという話が出てきている
複数の要因が絡み合うと情報処理構造は安定さを増すことが知られており、それがcanalisationに繋がっているのではないか
近年、このように言語環境が言語学習に寄与するという考え方が再び注目を浴びている
どのように複数の情報源が統合されるかについては、幾つかの説明がある
一つの可能性は、言語学習では複数のキューが絡み合い、その結果として、（インプットなど）環境的な要因にゆれがあっても安定したシステムに繋がる、というもの
複数の構造的に異なる要素が同一の機能を果たしたり同一のアウトプットを生むという言語の特性（degeneracyと呼ぶ）により、特定のキューのみに頼ることのない、頑健なシステムが構築される
言語や他の複雑系のdegeneracyのコンピューターモデルは、degeneracyが学習の頑健性に重要であることを示している
本論文では複数の要因が絡み合うコンピューターモデルをproof of conceptとして用いることにより、degeneracyがcanalisationに繋がることを示す
例として語の学習を取り上げる。語の学習は難しい（いわゆるGavagai問題で）
キューとして分布（冠詞の後は名詞、など）やプロソディーがあり、それらは語の形式と意味のマッピングの学習を促進することが知られている
状況間の統計的情報（同じ形式-意味の結びつきに異なる状況で何度も触れること）もキューの一つ。ジェスチャーなどもキュー。
しかしこれらのキューは単独ではいずれも学習に丁度良い制約を与えるものではない。例えば冠詞の後には形容詞も来うるので、分布のキューは完璧ではない。
実は特定のキューの信頼性が低いのはむしろ良いことである。仮に一つのキューのみに頼ってしまうと、そのキューがない時にコミュニケーションが疎外され得る。
一方で、複数のキューが存在するデメリットは、より多くの情報を一度に処理しなければならなくなること
複数の情報源を統合することにより語の形式と意味の結び付きが促進されるか否かを検証するコンピューターモデルを構築した
二種類のシミュレーションを行った。

個々のキューを加えると習得は容易になるか否かを検証する。しかしキューの信頼性が高いと、そのキューが不存在の場合に形式と意味のマッピングの習得が疎外されることが予測される（＝頑健性が犠牲になる）
ノイズがある複数のキューを加えると習得は促進され、また頑健になるか否かを検証する

モデル

hub-and-spoke architectureのモデルを用いることにより、複数の異なるモダリティーからの情報をインプットとして処理資源に渡す。そうすることにより、学習をサポートするのに最適な情報統合方法をモデルが決められる。
このモデルは先行研究にある語学習の連合モデルやcross-situationalな語学習のモデルと一貫している

アーキテクチャ

recurrent backpropagation neural networkのモデル
100ユニットの隠れ層が一つあり、そこに様々なモダリティーからの情報がインプットとして与えられ、意味を表す層にアウトプットする
音声情報を表すインプット、視覚情報を表すインプット、分布情報を表すインプットがある
（村上注：詳しくは本文のFigure 1を参照）

表象

100語を学習する。意味を表す層のユニット数も100で、各語が1つのユニットに対応する
音声情報に関しては、1語が（全10種類ある内の）4つの音素から成っている。各音素が5つのユニットに対応していて、内2つがアクティブである。
視覚情報に関しては、20ユニットから成っており、各語において内8ユニットがアクティブな状態である

訓練

二語が同時に提示され、その内の一語のみインプットに表象される
すなわち、音声情報には二語分のスロットがあるが、その内の一語は提示された二語の内の一語の音声情報が正しく表象されるが、もう一語分のスロットには無作為に選択された他の語の音声情報が表象される。視覚情報のインプットも同様。
プロソディーとジェスチャーのキューはそれぞれ音声情報、視覚情報の活性度を二倍にすることにより表現した
（村上注：つまり、何もキューがない状態でも語に対応する音声情報や視覚情報はあるが、キューがあることにより、それらが強化されるということ）
分布は語の外在的なキューとして実装された。すなわち、ある語がカテゴリー1に属する語だと、分布層のユニット1が活性化した
単一キューの検証時はキューの信頼性は100%とし、複数のキューの貢献を検証する際はキューの信頼性を25%から100%まで変化させた
活性化のサイクルには6ステップあり、Time 1では視覚情報と音声情報がインプット層に表現され、Time 2では活性情報がインプットから隠れ層、隠れ層から意味の層、そして隠れ層から隠れ層へと伝搬される。Times 3-6では意味のアウトプット層に意味が表現される。
1エポック当たり100語それぞれが一度ずつ対象語として出現した。最大10万エポックまで訓練された。
初期値を変えるなどして20種類のモデルを構築した

テスト

意味の層で最も活性度の強いユニットが対象語と一致していれば、モデルは正確であると判断した
訓練中の正確性と、100語全て正解した時点を見た
訓練後に、テスト時にキューが不在でもモデルは正確なアウトプットを産出するか否かを見ることにより、モデルの頑健性を検証した

結果
＜単一のキューの場合＞

プロソディーのキュー又はジェスチャーのキューがあると、キューがない場合と比較してより早く100%の正確性に達した
分布のキューはキューなしと大差なかった
プロソディーのキューとジェスチャーのキューは分布のキューよりも効果があった
プロソディーのキューとジェスチャーのキューは差なし
頑健性を検証するため、それぞれのキューがない状態での正確性を見てみたところ、プロソディーのキューとジェスチャーのキューはそれぞれが不在だと正確性がキューなしよりも劣る
分布のキューはなくてもキューなしの状態と同等の正確性だった

＜複数キューの場合＞

それぞれのキューの信頼性が高いほど、学習が速い
頑健性については、単一キューの場合と同様にテストしたところ、信頼性が50%→75%→100%と上昇するに従い、正確性は低下した
キューの信頼性が低くても学習が速くなったり頑健になったりするわけではないが、キューの出現率が50%を超えると、モデルの頑健性が損なわれる
50%の信頼性が学習速度と頑健性の最適なトレードオフを実現するポイントのようだ

考察

複数のキューに注意することは処理負荷を増やすが、一方でそれは言語学習に二つのメリットがある

学習の速度と正確性が向上する。キューの生起確率が50%だとしても、キューがないよりは学習が促進された。
degenerateな環境から学習すると頑健になり、キューの出現が安定していなくても（＝コミュニケーションの状況により異なっても）そのキューを活用できる。

しかしこの頑健性はキューにノイズがある時にのみ観察された。従って、語学習におけるcanalisationは複数の情報源が絡み合う結果だと見ることができる。
更に、学習速度と頑健性にはトレードオフが観察された。キューの信頼性が高いほど学習速度は速くなる。情報源が増えるほど頑健になるが、それはそれぞれの情報にノイズが混ざっていた場合のみである。

なお、当該研究は本学会でComputational Modeling賞という賞を受賞しています。この賞はその名の通りコンピューターモデルを用いた優れた研究を表彰するものですが、いくつかの下位分野があり、その中の「言語」に関するモデリングの賞を受賞しています。

本学会は来年はロンドンで開催されるとのことです。来年どこで何をしているのかわかりませんが、参加できるようならまた参加してみたいと思います。

Akira Murakami's Website

The 38th Annual Meeting of the Cognitive Science Society

Leave a Reply Cancel reply