Kenya Kusunose
Tokushima Univertisy Hospital. MD / PhD
BLOG -論文関連よもやま話-
Introduction
No reference
留学後特に感じるのですが,医学論文を読み書きしていると, 統計学の大切さが身にしみます.臨床研究者の多くが基礎的な統計学に精通しているだけでなく,何人かは統計学の学位持ちだったりするからでしょうか.たまにresidentでも統計学を学んでから医者になった人もいて,人材の幅広さを感じます.
循環器学会の年次集会でも毎年のように「how to get your papers accepted」みたいな講演があります.大体共通しているのは,1.革新性 2.方法・結果の妥当性 3.結果の与える影響 ,この3点です.特に,統計がイマイチだと,2の結果の妥当性の部分でかなり点数が減らされる気がします.適切な変数を取得し,適切な解析を行い,結果を出し,解釈する.大変な作業です.さらに有名な論文を参考に統計処理をしても,statistic reviewに回ると,「これではだめだ」と言われたりもします.そういう意味では医学統計分野は日進月歩の領域かなと思います.
10年後にこのサイトに書いた内容を見返してみると,「この統計処理はダメだな」と感じる部分がでてきてしまう可能性も十分あるなぁ,と思ってはいますが,まあメモがわりに書き溜めていけたら.
What is your stat software?
Kusunose et al. all references.
臨床統計を少しでもやったことがある人なら,タイトルの質問を話題に1時間は盛り上がれるのではないでしょうか.世界最大のシェアを誇る統計に使えるソフトはExcelですが,いわゆる一般的な統計ソフトとしては,SAS, JMP, SPSS, STATA, Prism等々あります.あなたは何を使っていますか? そして何が一番のソフトでしょうか?
まず,シェアをとったところが勝者,という考え方からだと日本の研究機関ではおそらくSPSSでしょう.私も留学後,メインで使っています.操作性がExcelに似ていることや,必要な解析にポイントを絞ってわかり易く実行できることがうけていると思います.これの廉価版クローンみたいなソフトがMedCalcですが,「安価・アップデート無料・図表機能が意外にいけてる」などの理由で個人的に使い続けています.
「じゃあこのソフトを使いこなせれば,医療統計を実行するのに不自由は無いのか」との質問にはNoといわざるを得ません.Introductionでも書いたのですが,医学統計分野は日進月歩です.「SPSSの追加パッケージを買っても**の統計には対応できない」なんてケースに巡り合うことはしばしばです.そんなこんなで,今ではSPSSを軸に,MedCalc,JMP (CART analysis等),R software (NRI, C-statistics等)を使い分けてたりします.スクリプトを要するソフトは慣れるまで使うのが面倒ではありますが,その分統計手順を自分で確認しながら実行できるという利点もあります.
「お勧めを一つ」と言われたら「まずExcelの使い方を,,,」になっちゃうんですが(笑),根性があるならR software,私みたいな根性無しには,SPSS (or MedCalc)かな,と思います.
Kappa係数
Kusunose et al. Circ J. 2011;75:141-147.
この論文では心エコー法から算出されるStrain値なる心筋運動指標が,肉眼的評価と一致する事をしめそうとしています.初歩的な数学知識から考えると,二つの計測値の一致率を調べる時は単純に,一致した数/総数,で算出すると思います.最初,この単純に割って算出した%を表示していたところ,JASE誌の査読で「診断の一致率にはKappa係数を使うのよ」と指摘を受けました.査読過程で初めて適切な統計学的手法を指摘され,それを大学所属の統計学者に聞きに行くことになりました.
Kappa係数は単純に言うと,「偶然の一致を考慮した一致率」になります.詳しい計算方法はwebで調べれば出てきますし,難しくないのでここでは実際の意味合いについて個人的見解を.
よく「Kappa係数>0.6」で一致率が十分高い,0.8以上で素晴らしいと言われますが,それは統計学上の話です.例えばある診断法が正しい診断と一致するのに,65%の確立(Kappa=0.65)である,と言われて使うでしょうか.使いませんね.医学論文では0.8以下の一致率では実際の臨床には使えないというのが個人的印象です.事実,JASE誌の査読過程でも0.8を切った部分についての考察を深く求められました.
統計学の大切さと同時に,統計学をそのまま医学領域に当てはめることのむずかしさを感じた想い出の係数です.
Ref. Kundel et al. Radiology. 2003; 228:303-8
Sample size
Kusunose et al. Am J Cardiol; 2013;112:604-11.
ある上司との会話から.
「ある仮説を立証するために必要なサンプル数がAとする.ある研究者がAよりも少ないサンプル数を研究で用いたらそれはstupid,愚か者である.しかし,Aよりも明らかに多い数を研究で用いても,それはwastefulness,無駄な労力である」
これを言われたときに,ああ,どんな研究にも適切なsample size calculationが必要なのだなと感じました.正直,数は多ければ多い方が良いだろうと思っていましたが,大事なのは必要なsample sizeのようです.逆に言えば,一見少なくみえるsample sizeでも,仮説立証のために統計学的に要求されているsample sizeを満たしていれば,問題は無いということです.私も2013年のAm J Cardiol掲載論文中で示したsample sizeは,それほど多くは無かったのですが,方法論の中で必要十分であることを示していたおかげで,それについて突っ込まれることはありませんでした.
実際のsample size calculationの方法については,状況によって要求される手法が違いますので,webサイトの紹介にとどめておきます.SISA: http://www.quantitativeskills.com/sisa/,などはweb上で出来るお手軽サイトです.他に,多変量解析や生存分析のsample sizeなども計算式は決まっており,引用される論文も大体決まっていますので,しっかりした統計レビューのついた雑誌に掲載されている論文を読むといくつか見つけることが出来ると思います.ただし,sample size calculationって論文の本筋ではない&文字数も増えちゃうので,「解っていて省略している」論文も多いだろうことを付け加えておきます.
アクセプトされる論文の書き方を読んで
先日,初めてJACC imaging誌において名指しでのreviewをする機会に恵まれました.過去に幾つかのレビューを回して頂いたことはありましたが,直接雑誌からの依頼は初だったので,この機会に本でも読んで作法を学んでおこうと思い,論文の書き方,的な本を読んでみました.そこでいくつか心に残った部分があったので,抜粋とコメントです.
1.研究者にとっての論文十カ条から,「忙しくて論文が書けないというのは,いいわけにはならず,能力がないと言っているのと同じである,本当に価値あることが得られていれば,論文は一晩で書ける」.
→マジかよ...”第一線”は自分から随分遠くにあるようです.
2.悪い論文とは,文章がまわりくどい,説明が細かすぎる,難しい単語を使う.
→特に難しい単語を使う,というのは思い当る部分があります...新しいフレーズを知ると,嬉しくなって使っちゃうんですよね...
3.論文不採択の理由:レフェリーとの議論が互角にできない場合.
→これはよく聞く話だったりします.知り合いの先生いわく,「レフェリーをこえた時に論文は通るよね」も同じ意味かなと.
4.レフェリーは内容の不十分さを根拠に,論文掲載を拒否すべきと主張してはいけない.
→内容の不十分さは拒否に値するところかと思っていましたが,「"内容の不十分さ"は結論を変えるようなものでなく,追加実験などで修正できるものがほとんどなので,内容の不十分さ,だけならmajor revesionとするべきなのかもしれないなと思いました.
5.用語の統一 (consistency)が大事.
→まさにMatters of small concern should be treated seriously.
しかし,こういう系の本を読んで,本当に力が付く人っているんですかね? こういう系の本って,読んでも「あるある~」みたいな話が殆どだなぁ,という感想が正直なところです.
3日でマスターする医学統計入門を受講して
2016年の日循に参加した際に,8:30~10:00の3日間連続で医学統計の講義をテキスト付で東邦大学医学研究科の宮田敏先生がしてくれました(無料).この手の講義は何万円か払って受けるのが普通なので,とてもお得だったと思います.いくつか得にためになったことをメモ代わりに記録です.
1) Mean SDとMean SE.SDは観測データの散らばりを意味するので,データ全体の記述目的に使う.SEは推定する際の正しさを表しているので,平均値の比較を行うときには使えるとのこと.
2) T検定とMW検定.T検定は常にWelch's t-testと書く必要がある(他のt-testはつかったら駄目).Mann-Whitney testは正規分布に従わなくていいかわりに,分布の形状と分散が同じでないと駄目.T-testは中心極限定理が使えるので,nが20以上あれば,正規分布でなくてもt-test使えばいい.分散安定化にはBOX-COX変換を使う.
3) p valueは3桁目まで書く.
4) Chi-squareとFisherの直接法は,かならずFisherの直接法を使うこと.
5) 比率の多重比較はBonferroniを使わない,現代はHolmをつかっておけばいい(適応できる条件が一緒で検出力が上がる).
6) 信頼区間はnが大きくなると分母が大きくなるので信頼区間は必ず狭くなる.
7) 信頼区間を確定させるために,推定量を観測値に置き換えて,信頼区間を算出する.
8) 帰無仮説がrejectされるパターンは3つ.5%エラーで間違ってrejectされる.差があってrejectされる場合は,臨床的に意味があるのか,意味が無いのか,これは信頼区間など見て判定.
9) サンプル数を増やしてp valueを下げるのは統計学的にはナンセンス,だって差はnが少なくてもあるはず.ただし現実のデータのエラーを慣らすという意味では良いのかもしれない.
10) 変数選択は基本Stepwiseで.強制投入はどうしてもその関係を見たいときに.
11) 30のアウトカムで3つしか入れないほうがいい.Fully adjustできないのを正直に書く.5つ入れて,overfit問題はあるかも,という書き方は結果のミスリーディングになる.
とても勉強になる3日間の講義でした(2日目はシンポでの発表があり参加してませんが(苦笑))
漠然とした将来像
Kusunose K. 10/27/2019
はじめて自分の1st author論文(学位)が出てから,今年で10年.
振り返ってみると,
・卒後:博士号は取るものだ,大学でまなび,専門医をとったら高知に帰ろうか.
・博士号取得後:研究は面白い,言われるがままにやってみよう.上司が留学しているな,勧めてくれるしチャンスもあるので行ってみるか.
・留学:めっちゃ楽しい! 人生の夏休み! この期間ENJOYしたるで!
・帰国後:留学で得られたものを大学に還元するのが自分の奉公だ.大学発の研究を出そう!
その後,それなりの雑誌(JACC等)にそれなりの数の論文を上梓し,後輩も今年からクリーブランドに留学し後進の目途もついてきました.これから講演会とかやって教育にシフト? とかぼんやりと思っていたら,人工知能との出会いから盛り上がり,AI領域のマイルストーンを作ろうと今走っているところだったりします.
やりがいはあるし,日本~世界の賢い研究者と話す機会も得られ充実感はありますが,果たしてこのノリでいつまで行けるのかと不安に思うことがあります.アカデミーに対する気持ちをいつまで続けられるのか,「アカデミックED」に陥るのではないかという不安感.専門医資格はあるので働き口には困らないでしょうが,やはりイキイキして人生過ごしたいものです.不惑の年を今年むかえましたが,迷いは年々増える一方です(笑えない).
この辺について,近い年代のDr.同士で話せる人いないかな~.
COVID-19時代に思うこと
Kusunose K. 4/25/2020
「ほんの2カ月前までは,こんな世の中になるなんて思ってもみなかった」
なんていう,安っぽい映画のオープニングみたいなことが,現実になるとは本当に思ってもみませんでした.おそらく歴史の教科書にも掲載され,いつまでも忘れられない記憶になるだろう,新型コロナウイルス,COVID-19についてです.
2月の中旬ごろまでは,正直,過去に流行したSARSや新型インフルエンザ程度のイメージでした.最初期はヒトヒト感染すらするのかという議論があったくらいです.その後も,重症化するのはまれである,8割は無症状という耳触りの良い話ばかりで,日本に入ってもこないのでは,なんてイメージもありました.ところが,無症候でも感染力があるなどの世界中に広がるために創られたような挙動を示すこのウイルスは,あれよあれよという間に世界中に広がり,国によっては死亡率が10%を超え,著名人もバタバタと倒れていき,かつてない経済恐慌が迫って(もしくはすでに訪れて)います.
病院勤務の私にとって,新型コロナは身近な問題で,逃げ回るだけでは患者の命を救うことはできません.本当に出口の見えない状況になっているので,将来も全く見通せません.昨年10月には「専門医資格はあるので働き口には困らない」なんてハッピーな話を書いていましたが,そんなことも何の保証もない時代がくるかもしれません.さらに踏み込んで言うと,私がこの10年以上をかけて進んできたアカデミア領域の研究が,変容してしまう可能性があります.例えば,「循環器イメージング領域の研究している暇があれば,新型コロナ臨床・研究を少しでもしろ」なんて意見が出てきそうです.
それでもなお,自分のやっている研究がこのCOVID-19時代でも,何か役に立つと信じてやっていきたいと思います.さて,ポストCOVID-19時代はどうなるか.そこまで自分が感染しないよう,もしくは感染しても生き残っていることを信じつつ.