大塚(2020)「統計学を哲学する」を読む

光栄にも大塚淳先生より新著「統計学を哲学する」(名古屋大出版会: 以下「本書」)を御恵投いただきました。御礼に替えて、簡単に内容を紹介し議論をしていこうかと思います。特に本書が導入した「存在論」「意味論」「認識論」という三つの区別の意義を大久保の視点から論じます。最後に、私が関心を持った今後の展開について言及します。

・はじめに

科学哲学とは、どのような分野なのだろうか。もちろん私が考えるにはあまりにも大きすぎる問だが、他の人に紹介するなら「科学における概念や論争を分析すること」あるいは「ある学術的主張の背後で暗黙的に措定されている前提を分析すること」と答えるかもしれない。本書の著者がTwitter述べた通り、

Jun Otsuka@junotk_jp
あと哲学っていうと論理が及ばないところを棍棒で殴り合う、っていうイメージがあるみたいだけど、それは全くの誤解ですね。むしろ私のイメージする哲学は、こんがらがった思考の糸をほぐして、概念を整理し、相違を認識するとともに一致点を探る、というものに近い。
2020年11月05日 12:33

生態学を専門とする私の友人は、以前生物学の哲学者たちの議論する様子を見て「まるで”空中戦”みたいだ」と言っていた。誤解のないように断っておくと、彼のコメントは決して「地に足がついていない」とか「上から目線だ」というネガティブな反応ではなく、むしろクリアな議論に驚嘆したと言っていた。個別の仮説やデータについて考えることに慣れてきた彼にとって、「抽象的な概念を抽象的なまま分析し、適切な”俯瞰図”を与えたり込み入った問題を少しずつほどいたりすることができる」という点に驚いたそうだ。もっとも、歴史的には科学哲学者同士の議論が白熱していくうちに空中どころか重力圏を飛び出して飛んでいってしまうこともあったとかなかったとか聞いているが…（Ohkubo unpublished）。

ところが、統計学の世界（だけでもないが）ではどうも「哲学する」ということに対して評判が悪い。恐らくその理由の１つは、悪名高い「確率の頻度解釈vs主観ベイズ解釈」論争に対して感じられる無益さだろう。しかし実は、本書のいう哲学とは「頻度解釈と主観解釈のどちらが正しいだろうか」という問題を扱うものではない。「最尤法とベイズ法のどちらが正しいのだろうか」を決める議論でもない。では、哲学者が統計学について論じることにどのような意義があるのだろう。

ひとつの方向性は、あらたな論点を提起することである。たしかに、これまで“統計学の哲学”という分野では、あまりにも頻度主義とベイズ主義の話に執着しすぎていたのかもしれない（著者の言うように、本書は必ずしもこの分野の標準的な書を目指したものではない。詳細は本項末尾の注1に記載した）。本書はモデル選択と深層学習や統計的因果推論など近年大きな関心を集めるトピックに多くの紙面を割いて議論しており、特に著者が専門とする因果性に関する分析は非常に充実している。これまで十分に議論されてこなかった問題を取り上げることで、哲学という分野の意義と面白さが再評価されるのではないだろうか。

もうひとつの方向性は、多くの人が不毛さを感じるベイズ主義/頻度主義の話題に新たな視点を与えることである。本書では知識の内在主義と外在主義(特に信頼性主義)という現代認識論の中心的な概念が日常的でわかりやすい例とともに紹介されており、これら概念やこれまでの哲学研究で得られた重要な知見を援用することでベイズ主義と頻度主義の双方が抱える問題をそれぞれ公平かつ簡潔に指摘している。

・「存在論」「意味論」「認識論」

本書最大の特徴は、統計学に関する哲学的問題を論じるにあたり「存在論」「意味論」「認識論」という、三つの区別を導入したことにある。この区別は哲学に詳しい読者にはおなじみかもしれないが、多くの論争が複雑に絡み合った統計学には特に有用だ。三つの区別を入れることで既存の問題がよく整理されると考えられる。本稿ではそのご利益を見るためにも、著者の新たな問題提起が新鮮な深層学習や因果推論ではなく、敢えてすっかり飽きられた(?)ベイズ主義/頻度主義論争に注目しよう。

例えば統計学の哲学で多くの業績を残してきたD. Mayoは、一般に他の研究者からも頻度主義を擁護する論客として見做されることが多く、実際に本書でも頻度主義を扱った第3章に登場する。しかし正確にいうと、彼女は必ずしも確率の解釈に関して頻度主義という立場に立脚しているわけではない。彼女がそれ自体を議論の本題として扱うことは少ないが、主観解釈とも頻度解釈とも異なる傾向(propensity)解釈に近いと言える(注２)。にもかかわらず多くの人が彼女を頻度主義者として扱う理由は明白で、具体的なデータ処理の方法としては代表的な頻度主義統計とみなされているNeyman & Pearsonの仮説検定論を取り入れているからであろう。Neyman & Pearsonの仮説検定とは、簡単に言えばある統計モデルを使って誤った判断の回数が長期的に見て一定以下になるような意思決定規則を定める方法だ。彼らの立場によれば、「当該の仮説の真偽について、直接的には何の判断も下さない(p.107)」。即ち、データ収集前に、誤った仮説を受け入れてしまう確率を一定以下に定めることはできる。しかし、ひとたびデータが収集されて統計量が算出されたら受け入れられた仮説は「真か偽のどちらかである。それ以上に言えることはない」(大久保 & 會場2019)。

MayoはNeyman & Pearsonの手法を受け入れつもその解釈については批判的に検討し「真か偽のどちらかである。それ以上に言えることはない」という主張には必然性がない、という結論に行き着いた（このように先行研究の成果に深い理解と敬意を示しつつ、学界の標準的な解釈にも「○○先生がこう言っている」といった姿勢から距離を置いて批判的に再考するという姿勢はまさに学術として理想の姿かもしれない）。この解釈に変わり、彼女は「仮説検定を行う過程で計算されるある統計量は、“ある仮説Hがどれだけ”シビアな”テストをパスできるか”の指標となる」という見方を与えた(詳細はMayo 2018を参照)。この再定式化された仮説検定の枠組みはシビアテストと呼ばれ、ベイズ主義や尤度主義と目的が違うことや、科学的推論においてベイズ主義や尤度主義にはない利点があると論じられてきた。

このようなシビアテストの考え方は、本書の存在論/意味論/認識論の区別を意識し、互いの関係性を分析することでより一層明確になる。Mayo自身は「外在主義」や「信頼性主義」という用語をあまり前面に出さないが、彼女の打ち出した「ある仮説Hがどれだけシビアなテストをパスできるか」という考え方は本書で論じられた信頼性主義による知識の正当化という議論と非常によく似ている。つまり、Mayoの提案する方法は、具体的な手法としてはNeyman & Pearsonを受け入れつつ意味論レベルでは「Neyman & Pearsonの結論には根拠がない」と分析し、彼らより踏み込んだ解釈を与える。そしてこの新たな意味論に根拠を与えるのが、信頼性主義という認識論的立場になるだろう。このような分析は、統計理論を単に「手法の違い」「確率解釈の違い」として比較するだけでは到達できない。

存在論/意味論/認識論の区別が有用なのは哲学に関する分析だけではない。具体的な統計手法についてもより深い洞察を与えることが期待される。例えば、統計の入門書では頻度主義とベイズ主義の違いがパラメータ推定の最尤推定とベイズ推定の違いに対応すると説明される場合がある。このような見方からすれば「ある条件のもとで最尤推定とベイズ推定はほとんど同じ結果を出すのだから、主義の違いは実務に関係ない」と考えるかもしれない。しかし、この対応付けは不正確だ。「〇〇法とはなにか」という問いと「〇〇法の結果はどのような意味と解釈できるか」「〇〇法はどのように認識的に正当化されるか」という問いは、それぞれ異なるからだ。こうした複雑に絡み合った問いを単に「主義の違い」や「確率解釈の違い」として括るのは、あまりにも大雑把でかえって多くの人を混乱させてしまう。

さらに複雑なことに、ひとつの手法に対して複数の正当化が可能な場合もある。以前の記事でも取り上げたランダム効果モデルのパラメータ推定について考えよう。主義に関わらずデータからパラメータへの変換という点は最尤推定もベイズ推定も同じであるし、実際ランダム効果モデルのパラメータは最尤推定でもベイズ推定でも可能である。ところが最尤法の場合、ランダム効果の分散推定が不偏推定量にならないことが多い。一方ベイズ推定を行う場合には、パラメータに何らかの事前分布を与える必要がある。解析的な都合の良さからガンマ分布が使われることも多いが、実際には様々な形状の事前分布が想定できる。しかも事後分布は普通の回帰パラメータに比べ事前分布の与え方に対して敏感であることが知られており、どのような事前分布を与えるべきかが長く議論されてきた。Polson & Scott (2012)は以下のようなリスク関数を定義して「半コーシー事前分布を使うことで、ランダム効果分散の“良い”推定ができる」と明らかにした。

いま、データからあるパラメータθを推定法δ()でを推定するとしよう。この時、リスク関数は以下のように定義される。

Polson & Scott(2012)は、最尤推定と半コーシー事前分布を使ったベイズ推定を比較し、後者の方がリスクが小さいことを明らかにした。ここで、リスク関数の右辺を見るとデータの出方yに対する期待値をとっていることに注意する。すなわちPolson & Scottは、「データの実現値によっては、結果的に半コーシー分布によるベイズ推定よりも最尤推定の方が真の値に近い場合もある。しかし真の値からのズレに対しデータの出現頻度yで期待値をとると、平均的には最尤推定よりも真の値に近い値を得やすい」ということを明らかにしたものと言える。これは頻度主義的な観点から、事前分布の利用を正当化しているものとみなせるだろう。すなわち、最尤推定ではなくベイズ推定を用いるという選択は、ある合理的なエージェントがデータを得る前に半コーシー分布を持っていた場合のデータ取得後の信念の度合いとして内在主義的な正当化を与えることもできるし、真の分布のもとで仮想的な反復を行った場合に期待されるリスクの低減という信頼性主義的な正当化を与えることもできる。このような正当化の多重性は、「主義なんて関係なかった」ということを意味しているのでは決してない。それぞれ「どのような目的で」「どのような根拠に基づいて」「どのような解釈を与えることができるのか」を明確にすることが重要である、ということは本文でも繰り返し指摘されている通りだ。本書の導入した存在論/意味論/認識論の区別は、多くの重要な視座を与えてくれるだろう。

・今後に向け

ここまで書くと、実は本書には存在論/意味論/認識論の背後に「価値論」という隠れた第4の糸が立ち現れてくる。多くの人が感じるように、「確率は頻度解釈と主観解釈のどちらが正しいのか」という問いは、それだけ見ると不毛かもしれない。しかし頻度主義とベイズ主義の争点になっているのは、「どのようなプロセスを妥当な認識的正当化として認めるのか」という点であり、その背後には根源的に「統計的推論は、なにを目指すべきなのか」という学術的価値をめぐる問題がある。例えばベイズ主義と尤度主義が依拠する尤度原理のもとでは、「統計学では手元のデータから何が言えるか分析するべきであり、“起こるかもしれなかったが起こらなかった事象”によって結果が変わるのはおかしい」と考える。一方、頻度主義やシビアテストのもとでは「統計的推論とは、ある推論の信頼性を評価するものであるべきだ。“どんな事象が起こり得たか”というのは、信頼性に大きく関わるので考慮して当然である」と考える。このようにして価値論は存在論/意味論/認識論に有機的なつながりを与える。あるトピックが価値の問題である、ということはその問題は如何なる合理的で学術的に生産的な議論が不可能である、ということをまったく意味しない（例えばLaudan 1984）。科学哲学の視点から異なる複数の価値を比較分析することはそれを通じて他の立場との比較や対話をより円滑にするだろう(誤解されやすいことだが、多くの哲学者が目指すのは特定の主義が絶対に正しいと信じる根拠を与えことではない)。

これに関連して、頻度主義とベイズ主義の関係が今後どのような展開をみせるのか、あるいはみせるべきだと考えられるかというのも、今後さらなる検討が可能なテーマであろう。両者の論争が「近年下火になっている(p.7)」(注3)という著者の指摘には大いに同意できるし、「本書の目的は[中略]新たな薪をくべることではない（p.131）」と述べられているようにこれ以上深入りするのは、著者の本意ではないのかもしれない。また「データ解析に携わる人にちょっとだけ哲学者になり、また哲学的思索を行う人にちょっとだけデータサイエンティストになってもらう(P.4)」ことを企図する本書のねらいを大きくはみ出た話になるかもしれない。しかし、より細かく見れば「なぜ」「どのような意味で」両者の論争が下火になっているかという疑問は依然として残り解明の余地がある。ある人は、手法として正則モデルにおける最尤法がベイズ法の近似であることや特異モデルでは最尤法よりベイズ法のほうがうまくいくことを指して「頻度主義の方法はベイズ主義の方法に吸収された」かのように考えるかもしれない。別な人は、特異モデルにおけるモデルの評価が真の分布に関する期待値を取るという作業で正当化されていることを指して逆に「ベイズ推定は頻度主義に基づく認識論的正当化に吸収された」と言うかもしれない。また、ある人は実務家が場面場面で頻度主義とベイズ主義をプラグマティックに使い分ける事態を指して統計学の多元主義を擁護するかもしれない。いずれも、根源的には「結局のところ、統計学は何を目指すのか」という問いが密接に関わってくる。したがってこうした見解を整理する際にも、存在論/意味論/認識論の区別やこれらを結びつける価値論の観点は重要な知見を与えるかもしれない。

もうひとつ個人的に興味深いテーマと考えているのが、本書でも部分的に登場した「客観性とは何か」という問題との接点である(注4)。本書では統計的分析が「良かれ悪しかれ結論にお墨付きを与える唯一の手段になっている」と指摘している（言うまでもないが著者はここで科学コミュニティに関する事実を指摘したまででこのことの是非を論っているわけではないし、ある仮説Hに対する認識論的正当化を与えることその仮説Hが間違いなく絶対正しいと結論づけることには乖離があるので、著者は統計的方法を使えば確実に正しい答えが得られるなどとは一切主張していない）。しかし生物学や心理学以外の科学コミュニティを見渡すと、必ずしも統計的分析が普遍的に使われているわけではないようにも思える。こうした領域は、本来“正当な”科学に必要な統計的分析や、それによって得られる認識論的正当化を欠いているのだろうか？しかしそうした研究をよく見ると、観測機器や実験デザインの工夫で非常にクリア結果が得られていたりする。こうした事例は、再び「統計学は、何のためにあるのか」という問いを投げかける。誰も疑いようのないほどクリアな結果が出ていたら、統計分析はいらないのだろうか。それともやはり、科学コミュニティの規則として統計分析を行わねばならないのだろうか。こうした事例は「科学コミュニティにおいて求められる“客観性“とは何か(Reiss & Sprenger 2020)」という問題と結びつけて論じることができるだろう。

上記を始め本書を読み進めると、いくつもの興味深い問いが湧いてきます。そしてなにより、著者がTwitterで言及したコメントに大きな影響を受けました。

Jun Otsuka@junotk_jp
私がそこに何某かの貢献をできるとは露ほど思っていませんが、少なくとも、これを契機に、哲学について、哲学と統計学について、語っても良いんだ、という雰囲気に少しでもなれば嬉しい。そして願わくば、建設的批判を通じて、より良い作品が未来に生み出されたら嬉しい。
2020年11月02日 09:45

本稿の執筆にあたっては、Twitter上の議論から大きな刺激をいただきました。皆様からいただいた有益なコメントに感謝いたします。特にテンプル大のKenichiro MacAlinn先生、ミイダス株式会社の大羽成征先生からは重要な着眼点をいただきました。また、本書著者の大塚淳先生に改めて御礼申し上げます。

参照文献

Julian, R., and Sprenger, J. (2020). Scientific Objectivity. In Ed. Edward N. Zalta. The Stanford Encyclopedia of Philosophy, Metaphysics Research Lab, Stanford University.

Laudan, L. (1984). Science and values: The aims of science and their role in scientific debate. Univ of California Press.

Mayo, D. G. (2018). Statistical inference as severe testing. Cambridge University Press.

Polson, N. G., & Scott, J. G. (2012). On the half-Cauchy prior for a global scale parameter. Bayesian Analysis, 7(4), 887-902.

Royall, R. (1997). Statistical evidence: a likelihood paradigm(Vol. 71). CRC press.

Sober, E. (2008). Evidence and evolution: The logic behind the science. Cambridge University Press.

Sprenger, J. (2018). The objectivity of subjective Bayesianism. European Journal for Philosophy of Science, 8(3), 539-558.

Sprenger, J., & Hartmann, S. (2019). Bayesian philosophy of science. Oxford University Press.

大久保祐作, & 會場健大. (2019). p 値とは何だったのか: Fisher の有意性検定とNeyman-Pearsonの仮説検定を超えるために. 生物科学= Biological science, 70(4), 238-251.

・注1

一般に「統計学の哲学」としては、邦訳も手に入るSober(2008; 松王政浩訳)、Royall (1997)、 Mayo(2018)、Sprenger & Hartmann(2019)などが思い出される。しかしSober (2008)の扱う内容は、ベイズに関する記述のほとんどが統計学というより科学哲学における確証理論(confirmation theory)に関するもので、統計学やデータ分析の実践とは乖離がある。尤度主義のRoyallによる(1997)は頻度主義とベイズ主義の論争を目的の違いとして分析した「ロイヤルの三つの問い」で後の哲学者に大きな影響を与えた。また著者は統計学の業績も多いだけに実データを使った分析例や具体的な提案も多く実践的な内容となっている。その一方で、彼の狙いは「必要な場面では頻度主義やベイズ主義を使ってもいいが、少なくとも科学で求められる『証拠から何から言えるか』という問題に答えるためには両者は不適当である」と論じて、代案として彼の提案する尤度主義の利点を主張することだ。いわば「三つの問い」はRoyall自身による “キャッチコピー”であり、どうしても頻度主義やベイズ主義の扱いは低くなってしまう。また科学的推論におけるFisherとNeyman & Pearsonに対する鋭い指摘に比べると、彼のベイズ主義に関する議論はありきたりで、そのあとの20年でベイズ統計の研究が大きく進んだことを考えると少し物足りなさもある。哲学者の手で最近執筆されたMayo (2018)とSprenger & Hartmann(2019)も、それぞれ特定の立場(前者はエラー統計、後者はベイズ主義)を擁護する目的が強く、統計学における哲学的諸問題を公平に扱った書とは言い難い。これらに対し本書は、頻度主義とベイズ主義の双方に対する標準的な解説を与えながらも、Gelman & Shalzi(2013)の提起したモデル妥当性の問題など、現代的な話題にまで踏み込んだ議論が展開されている。“下から目線”を許してもらえるなら、より統計学やデータ分析の実践から目の届く範囲で議論が進んでいるように思えた。

・注2

例えばMayo(2018)では、統計学の歴史に関する説明や他の研究者の議論を紹介するときにはFrequentistやlong-run performanceという言い方をする一方で、自分の立場を表明する際にはこれらの用語を避け“error statistics”や "severe testing"ろ一貫して用語を使い分けている。

・注3

「AIC以降の統計学は予測分布へのKLDという観点から整理され、 “主義”の対立は数理の観点から解消した」という見解もあるかもしれない。しかし、この主張には二つの反論が考えられる。まず、事実としてJ. Roy Soc Stat.、 Biometrikaなど統計学のトップジャーナルとされる学術誌を見渡せば現実的に今でもベイズ主義流の合理的“信念の度合い”に基づく意思決定論を受け継いだ論文は容易に見つけられる。現実的に統計学にはベイズ主義という立場が存在し学術研究を行っていることは先の主張に反すので、彼らがなぜ/どのようなものを目指しているのか哲学的に分析し整理することには依然大きな意義があると考えられる。また、「〜〜は“ほんとうの統計学”とはいえない」という反論も意味をなさない。この主張の妥当性を何らかの規範(即ち“主義”)なしに示すことは困難だからだ。もちろん、冒頭に述べた通りこれはどちらかの“主義”に優劣をつけることを意味しない。

・注4

たしかにベイズ主義の説明では確率の“主観”解釈という説明がなされることもあるが、あらゆる統計学はデータを扱うという意味でなんらかの意味で客観性を目指すことは不可避で、これは”主観”ベイズにおいても同様である(Sprenger 2018)。