イレッサの記事に、ちょっと一言

http://d.hatena.ne.jp/what_a_dude/20110114/p1

のエントリを読んで、この中の「検出力」と「モニタリング」についてより具体的に説明する方法がないものかと考えてみた*1。ポイントとしては、多少の確率分布を用いるがP値は使わない。ちょっとブラックボックスのように思う人が多いと思うので。使わなくても、統計的考察はできる。

二項分布で考える

ちょろっと具体的な数字を出してみたい。イレッサによる急性肺障害・間質性肺炎、というのが懸案の副作用であるわけだが、この発症率についてはイレッサ群で4%、抗癌剤による通常療法群で2%観察されるとする報告がある*2。このような場合、たとえイレッサが登場していなくても、その時点で標準的な治療をすることにより2%程度の間質性肺炎は発症したと考えられ、残りの2%がイレッサによる「超過リスク」ということになる。もちろんこのような比較を行うためには、該当する「標準的治療」は、なにもしない(Best supportive care)よりも生存時間ならびに生存の質(QOL)がよい必要がある。そしてイレッサが対象とする非小細胞癌についてはこれは保証されているものと考えられる。

添付文書によると承認時には、副作用が生じるかどうか、国際共同研究のうちの日本人参加者50人の結果を用いて検討したとのこと。副作用のように「起こるか」「起こらないか」というイベントは二項分布で表され、確率pで起こる副作用があったとして、「n人の参加者のうちx人に副作用が起きた」という試験結果を観察する可能性は

 P(x;n,p) = {}_n C_x p^x (1-p)^{n-x}

と表される。高校の時やりましたね。でも忘れましたね。大丈夫です。みんなそうだから。とりあえずこの式を使えばつぎのようなことがわかるのだ。

2011年の今、日本人の中で医療問題に関心をもつ向きは、「イレッサ」という薬と「間質性肺炎」という副作用の関係について知っていることが多いだろう。だが2000年代初頭に、臨床試験を取りまとめていたとき、当然このことはわかっていなかった。人を裁くというなら後付で考えるのは良くない。2000年代初頭、データを手にした時点で、どのように考えたかを考えてみよう。わかりやすいように、通常の検定手段ではない方法で考えてみたい。

添付文書には書いてないんだけど、この試験で1例間質性肺炎が観察されたということになっている*3?一応これを採用して、日本人参加者50人で、前述の確率の条件下で臨床試験を行ってみて、1例の間質性肺炎を観察したという事実について考えてみる。前にも言ったように、この時点でこの間質性肺炎イレッサ由来かどうかは分かっていない。後でわかったことではあるが簡単のため、イレッサを使わず通常の治療をしていて間質性肺炎が2%起こる、ということは知っていたとする。ちなみに肺癌治療中の間質性肺炎、もしくは間質性肺炎に伴う肺癌というのもあって、こういうのはイレッサ以前より知られていたことであるから、少なくとも当時の知識であっても、イレッサを使わなくとも何らかの確率で間質性肺炎が起こると想定するということに違和感はない。

さて、イレッサ間質性肺炎が起こる可能性が2%(つまりイレッサに超過リスクはない)場合に、50人中1人の間質性肺炎を観察する確率は?上の二項分布の式を使うと、37.2%である。この数字の解釈としては、''このような条件下で同じ臨床試験を3回やったとしたら、そのうち1回ではこのように「1例の間質性肺炎が発生」という結果を得る''ということ。まあ結構な確率である。よくあること、と言うのが正しい。ちなみに2例観察する可能性は、18.6%と少し低くなる。まったく間質性肺炎が発生しない確率は36.4%と、こうなる可能性も充分あったと言えそうだ。表にしてみる。

間質性肺炎の発症確率 間質性肺炎0例 間質性肺炎1例 間質性肺炎2例
p = 0.02 36.4% 37.2% 18.6%

どう思われるであろうか。2011年現在から後ろ向きに見てみると、事実としては、この1例の間質性肺炎イレッサの超過リスクによって起こされたと考えるのが普通だろう。ところが、それがわかっていない2000年代初頭の時点では、どう考えてもこのたった1例は、超過リスクゼロでも充分観察しうる人数であると思われる。参考までに、p=0.04、つまり推定されるイレッサによる間質性肺炎の頻度の場合の、それぞれの観察が起こる確率を追加してみよう。

間質性肺炎の発症確率 間質性肺炎0例 間質性肺炎1例 間質性肺炎2例
p = 0.02 36.4% 37.2% 18.6%
p = 0.04 13.0% 27.1% 27.6%

どうだろう。このようなサイコロ表が与えられていた上で、間質性肺炎1例。はっきりいってこれは「どっちの可能性もありえる」って考えるのが妥当だ。・・・50人という人数では、4%という頻度の副作用が、通常2%起こるものと比較して起こりやすいかどうか、ということを正しく評価するのは土台無理な話なのである。これは通常療法の時の副作用頻度を1%や0.5%というようにもっと差をつけても、あまり変わらない。

これをさらに図にして表示してみよう。なんか図で日本語がうまく表示できないので英語ですいません。横軸が間質性肺炎を発症した人の数、縦軸が発症確率である。よくわかるように、おなじ発症人数について、確率が大きく重なり合っている。これは、この50人の試験で0人とか1人の間質性肺炎を観察したとしても、何も言い様がないということを意味している。この図については、次の段の図を見ればより理解しやすいだろう。

人数増えたら

実際にはその後、3300人レベルの市販後調査で、間質性肺炎が充分起こりやすいことが確認されたわけである。3300例中、193例の間質性肺炎が確認されており、頻度5.9%と、のちに多数の疫学因子で調整して推定した頻度よりはだいぶ多い数が観察されている。

ちょっとこの数字自体はここまでの流れからはあまり使いものにならないので、ちょっとこれとは別に、p=0.02またはp=0.04であるとした場合に、3300人レベルの試験でどのような結果が観察されうるかという図を提示する。

先程の図と大きく違うことがわかるだろう。この図では、超過リスクゼロの場合と、超過リスク2%との場合とで、観察されうる発症者数がほぼ重なりあっていない。100人以上の間質性肺炎を観察したなら、超過リスクは少なくともゼロではないと言い切ってよさそうだ。そして実際には193例観察したわけである。

このようなことは、統計学的検出力Statistical powerという概念で説明されるのだが、これを説明するには仮説検定を導入せねばならず、いろいろめんどいので今回は省く。受け取って欲しいメッセージは、これはもちろん文字では今まで何回もいろいろなところで書かれていることだが、このような図を見てなおのことわかるとおり、少ない人数では結論を下せないことが、人数を多くするとはっきりとわかることがあるということだ。そしてこのようなときに、もともとの少ない人数による検討が間違っていたからと言って、それは事実を隠蔽したとかそういうことではない。

この時点で重大な副作用だと確認し警告を出した。まあ妥当なように思われる。

さて、実際の間質性肺炎が5.9%と大きく見積もられたのはなぜか。これは今回は省くつもりであったのだが一応述べておくと、イレッサが登場した時副作用が少ない夢の薬とうたわれて、通常療法が困難な、状態が悪い患者さんに多く使用されたというのがあるのだろうと思う。今回は確率統計的な取り扱いに終始したが、実際に医療統計を扱うには、非常に多彩な要素についていちいち検討を繰り広げる必要がある。あるいは統計学的にも、検定や生存分析、多重回帰など、やることはここまで単純なことではない。しかしあえて単純化した。スジとしてはこれでOKだ。

問題は全くなかったか

さてそれでは、今回のイレッサ間質性肺炎はしょうがなかったのか?どうしようもなかったのか?

最初の承認時試験の50人が少なすぎたか?まあ結果としては少なかったんだろうが、それは結局のところ後付の論理だ。多くしたら多くしたで承認前に副作用を受ける人の数も多くなる。承認後に副作用を受けた人からはそれでもいいじゃないかと思うかもしれないが、どちらも同じ人だ。イレッサなら承認された薬だが、治験して承認されないことだってあるわけだ。実際のところ副作用の頻度なんてやる前にはだれもわからない。今回はだめだった。では次に承認を待っている薬にはどれだけの人数を課せばよいのか?今回の人数の検討は副作用の発生頻度を定義しておいたからクリアカットにできた。ほかの薬では、当然イレッサ間質性肺炎副作用4%は使えない。それでも一定のルールをとらざるを得ないが、ルールが正しい時も、そうでないときもあるだろう。

実際のところ重要だったのは、承認時試験は「50人の参加者による結果」としてまさに統計学的に把握している必要があったという点だ。上記の図のように、副作用は少ないとは言っても結論はできないな、と50人という人数から感覚的に直感する必要があっただろう。その点は医者においてはその認識はものすごく弱かっただろうとは思う。実はぼくはイレッサが市場にあらわれたころ現場にいた。呼吸器内科の医師が製薬会社にする質問といえば、分子的な動態に関するものがほとんどで、統計学的な質問はゼロだった。かれらは臨床の専門家であり、かつ大学病院の勤務医であれば分子生物学にも精通していることが多い。しかし臨床統計に精通している医師はまだ少ない。

そして市場に出ると、イレッサはものすごい勢いで大量に使われた。「アストラゼネカが夢の薬だと誇大な宣伝をしたからだ」と原告団は言うけれども、医者も言われたままにドンドン処方するほど、そこまでバカではない。世界初のEGFR antagonistとしての可能性に強く惹かれた医者が多かったと思うのだ。しかも飲み薬でもある。患者さんにとっての負担も少ない。入院して毎日大量の点滴をしつづける抗癌剤治療から、患者さんを解放することができるのだ。そこに見た医師の思いを、僕はウソだとは思わない。しかし統計学的知識がなかった。

このような、統計学的知識のなかったことについて、もし医者に責任があると問うのならば、日本にいるほぼ全ての医師に責任があるということになるだろう。そしてそれは有意義なことなのだろうか。患者という弱者を傷めつける医師という強者という構図を描き、強者のくせに知識がないとはどういう事だ、と怒りのあまり拳を振り下ろしたいのかもしれない。しかしそれでは社会は良くならない。日本国において、そんなことを繰り返してきた50年だということを思い出して欲しいと思う。果たしてこれまで日本社会は、そういうやり方でよくなってきたのだろうか。

現状では医学部での統計教育はものすごーく弱いし、研修医になってからは統計の理解を進めるような機会はほとんどない。この現状はいかにもまずい。イレッサ原告団が、これをもとに医師への統計学教育を進めるように強い態度で訴えるようなことがもしあれば、これほど嬉しいことはない。彼らは自分たちのことではなく、現在の、そしてこれからの、医療を受ける日本人全体のことを考えて行動していると言えるだろう。どうも原告弁護団にそのような高い志があるようには見えないのが残念だが、期待はしたい。

そして、やれることは一つ思いつく。新しく市場に出た薬剤が、50人規模で副作用が少ないと見積もられたなら、次に検出力をもとに定められた人数ずつ、ステップアップして人数を増やしていけばよいのではないだろうか。そうすれば、最低限の副作用の発生の時点でストップできる。ストップする基準も、統計学的に求められるべきだ。これ自体はそんなに難しいことではない。問題は、そのように医師の行動を管理する組織がこの日本には存在しないのだ。医療行為をマネージメントする立場がないのだ*4

実のところ、イレッサ以前も、イレッサ以後もこんなことは起こらなかった。イレッサは、世界で初めて日本で承認されたこの種の薬だった。通常は、かの有名なドラッグラグがあって、世界中で充分な検出力のもとに副作用が検討済みの薬が日本に入ってくるからだ。そしてイレッサ以後、厚労省は、世界初の承認を日本で与えることを極端に恐れていると聞く。

それではだめだ。無能だから人の後を追うだけにする、日本は衰退していくのだからしょうがない、というのではだめだ。厚労省の薬物承認に関わる官僚は、ほぼ全員クビにして統計の知識があるものに変えたらどうか。極論だと思う?アメリカのFDAは、ほぼそれに近いことをやったらしい。そして今、異常に統計に強い官僚たちが、アメリカの薬物行政をマネージしているのだという。日本にはあわない?僕もそう思います。日本にあうやり方としては、厚労省の医療行政に関わる官僚全員に、今すぐに、税金を投じてでも、統計学をものすごい勢いでマスターさせるべきだと思う。もし、既にみな充分な統計の知識があるにもかかわらずイレッサの問題が起きたとするならば、そのときこそ賠償責任は発生するのではなかろうか。

*1:このエントリでは、疫学における重要な要請、すなわち副作用その他もろもろの''定義''だとか、時間的・空間的な考察(空間は今回いらないか)などについては完全に省略している。したがってこれをそのままイレッサの問題に適用できるとは考えないで欲しい。あくまでそういった問題が解決されているという仮定の上での、考え方の一つである。とはいえそういった諸問題が解決された上では、こういった問題を捉える際、全般的に有用な考え方ではあるだろう。

*2:http://www.ncbi.nlm.nih.gov/pubmed/18337594?dopt=Abstract

*3:薬害派の人のサイトに書いてあった

*4:医療イノベーション推進室はどうかって?それは、当然ものすごく期待している