ミシガン大学のNick Ellis氏との共著論文がLanguage Learning誌に掲載されました。2018年8月に現職に着任した後に始めた、最初のプロジェクトの成果です。オープンアクセスで、論文はここから、データとRコードはこちらのOSFレポジトリからダウンロードできます。
【概要】
用法基盤理論ではインプット内での語や構文の分布(頻度など)が(第二)言語習得・処理・使用に影響を与えるとされていますが、それが英作文での屈折形態素の正確性にも影響を及ぼすのか否かを検証した研究です。具体的には以下の分布的要因を対象としました。
- 可用性(availability)。当該屈折形にどの程度触れているかを表す要因で、当該屈折形のトークン頻度を用いて測定しました。例えばsaysなどの高頻度な語形の屈折形態素はprefersなどの相対的に低頻度な語形の屈折形態素よりも正確性が高いだろうというのが仮説です。
- 随伴性(contingency)。手がかり(cue)と結果(outcome)の確率的な連合を指します。随伴性自体は様々なものが考えられますが、本研究では手がかりが語のレンマ、結果が屈折形です。具体的には、屈折形の頻度を対応するレンマの頻度で除した値 (信頼性 = P(屈折形 | レンマ))、すなわち当該屈折形がレンマの中に占める割合を用いて測定しました。例えばdecidedのように過去形でよく用いられる語はlikedのようにあまり過去形で用いられない語と比較して、過去形の-edの正確性が高いだろうというのが仮説です。
- 定型性(formulaicity)。どの程度定型的な(決まった)表現であるかを指します。本研究ではΔPという指標を用いて、周囲の語から対象屈折形が予測できる度合いを計算し、それを定型性としました。例えばpractice ____ perfectという表現だと空欄に入るのはmakesである可能性が高いと予測できるのでmakesの屈折形態素(三単現の-s)の正確性も高くなる傾向にある一方、____ do notだと何が入るか予想しづらいため、例えばsays do notという表現だったとしても、そのsaysの屈折形態素の正確性は低くなるだろうというのが仮説です。
変数の操作化等の手法に違いはあるものの、Guo and Ellis (2021; Front. Psychol.)は誘出模倣課題(elicited imitation task)を用いて可用性・随伴性・定型性の屈折形態素の正確性への影響を見ていて、3つの要因全てが屈折形態素の正確性と正の相関があったことを報告しています。私達の研究はGuo and Ellis (2021)の概念的追試ということになります。
我々の研究ではGuo and Ellis (2021)と同様に、過去形の-ed、進行相の-ing、三単現の-s、複数形の-sを対象としました。学習者の英作文データは大規模学習者コーパスであるEFCAMDATから、可用性・随伴性・定型性の値はCOCAを参照コーパスとして用いて算出しました。
結果:随伴性は全ての形態素の正確性と正の関係にある一方、可用性と定型性の明確な影響は観察されませんでした。また随伴性と学習者のL2熟達度との交互作用は認められませんでした。つまり随伴性と正確性の関係は高熟達度の学習者で低くなるとは限らないということです。
随伴性に関しては、(語の意味を表していると考えられる)レンマが屈折形の手がかりとして機能しており、第二言語学習者はそのような随伴性を屈折形態素を処理する際に用いているということを、本研究は示唆しています。これは用法基盤理論の予測に沿う結果で、本論文では具体的に連合学習理論や構文文法、第二言語習得の(アスペクト仮説などの)機能理論と合致している旨を説明しています。
一方で、可用性と定型性の明確な影響が観察されなかったのは、Guo and Ellis (2021)が誘出模倣課題でそれらの影響を確認していることを考えると面白い結果です。これにはいくつかの理由が考えられます。例えば、誘出模倣課題と(EFCAMDATに含まれる)自由産出作文のタスクの差は大きく、誘出模倣課題が暗示的・自動化された処理に依拠する一方、自由産出作文は明示的・意識的な処理に依拠する傾向にあります。すると暗示的・自動化されたシステムがボトムアップ式に提供する定型性等の効果(例えば ____ do notの空欄を埋める語は予想しづらい等)を作文時の意識的な方略(例えば一度書いたものを修正するなど)が上回ってしまい、結果的に定型性等の影響が観察されなかったと考えられます。
【経緯】
掲載までの経緯は以下の通りです。投稿以降は非常にスムーズに掲載まで至りました。
(投稿前)- 2018年9月:EUROSLA@ミュンスターで本プロジェクトについて話し合う。当時既にGuo and Ellis (2021)の結果が概ね出ており、それをスケールアップした(大まかな意味での)追試を行うことで合意する。
- 2018年10月-12月:特に何もできず
- 2019年1月-9月:最初の数ヶ月間で一気にスクリプト等を書き、その後に分析も一応の形で仕上げる。5月-9月にSLRFやLCRなど各所で発表
- 2019年10月-2020年6月:現職で初めての授業等で何もできず
- 2020年7月-10月:データやその分析方法に多少の変更を加え再分析。初稿を仕上げて共著者に送る。
- 2020年11月-2021年4月:2021年の早い段階で共著者から原稿をもらっていたが、授業で5月まで手つかず。
- 2021年5月:投稿
- 2021年8月:査読者2人+ハンドリングエディター兼査読者からのコメント。2人の査読者からのコメント(計12点)は非常に軽微なものばかり(おそらくこれまで受けた査読コメントの中で最も軽微)。ハンドリングエディターのコメント(12点)は再分析を要したものの、レスポンスに困るようなコメントはなし。
- 2021年9月:再投稿
- 2022年1月:査読者2人(1人は新規)からのコメント。いずれも軽微なものばかりの計5点。1週間ほどで再投稿 → アクセプト
- 2022年3月:ジャーナルのプルーフ
- 2022年4月:出版社のプルーフ → オンラインに掲載される
【感想など】
共著者
まずNickと共著論文を出版できたことは嬉しいです。ご存じの方も多いように、Nickは早い段階から第二言語習得研究におけるコーパスの有用性を説いており、私の興味・関心の中心は両者の接点にあるので、Nickと一緒に研究を行えたのは幸せなことです。また、Nickは2011年のイベントで知り合って以来私のことを気にかけてくださっていたので、その意味でも一緒に形になる仕事ができて良かったです
実は博士課程をどの大学・プログラムで行うか(出願するか)を考えていた時(2008年-2009年)も、Nickの下で勉強・研究がしたいと思ったのですが、Nickは心理学科所属で私のようなTESOL出身者には心理学のPhDは荷が重そうだと感じたことと、当時はNickもコーパスを用いた実証研究はそれほど行っていなかったことから断念しました。ただその直後からEllis and Ferreira-Junior (2009)などで積極的にコーパスに基づく第二言語習得研究を始められたので、今から思えばせめてNickに連絡くらいはしてみるべきでした。
データとコード
冒頭に記した通り、Rコードとモデリングに用いたデータをOSFレポジトリで公開しています。計量分析処理のコードを公開する流れはできてきましたが、コーパス処理(テキスト処理)部分のコードを公開しているのは第二言語習得・コーパス言語学の分野では比較的珍しいのではないかと思います。しかしそれでも結果が完全に再生可能(reproducible)かと言うとそうでもなく、少なくとも以下の要因により数値結果は異なり得ます。
- COCAのフルテキストデータは購入者により微妙に異なること
- TreeTaggerは以前のバージョンが公開されておらず、私の理解が正しければ使用したバージョンをOSF等にアップロードもできないこと(つまり今後TreeTaggerのバージョンアップがあった場合、現時点での結果は再生できなくなる可能性がある)
- 使用したデータ(EFCAMDATとCOCA)にも同様のことが言えること
- brms(のバックエンドのStan)の結果はハードウェア依存であること
ただしコードを公開することにより透明性は高まるので、原理的に再現可能(replicable)ではあるはずです。
High-Performance Computing
また、今回初めて本学で提供されているHPCサービスを本格的に活用しました。従来であればメモリ不足によりできなかった(あるいは時間がかかりすぎて非現実的だった)複雑な統計モデルのパラメータ推定ができたり、重い処理を複数件同時に回すことができたりと、HPCを用いる利点が多くあり、今後もHPCは私の研究ツールの一部となるのではないかと思います。
一方で、HPCを用いた研究でデータやコードを公開しても実際にそれらを使用して結果を再現するにはHPCへのアクセスが必要になるわけで、それでは原理的に再現可能であっても現実的には難しいという場合が生じ、それはデータやコードを公開する価値を減じることになるのではないかという気もします。ただコードを公開することにより透明性が飛躍的に高まるのは確かで、私はその部分がとても大切であると思っています。