ログランク検定

ログランク検定(ログランクけんてい、: logrank test, or log-rank test)は、2つの標本の生存分布を比較する仮説検定である。これはノンパラメトリック検定で、データが右に歪んで打ち切られている場合に使用するのに適している(技術的には、打ち切りは情報を与えないものでなければならない)。この検定は、臨床試験において、新しい治療法の有効性を対照群と比較して確立するため広く使用されており、測定する対象は事象発生までの時間(初回治療から心臓発作までの時間など)である。この検定は、ネイサン=マンテル(英語版)デイヴィッド=コックス(英語版)にちなんでマンテル=コックス検定と呼ばれることもある。ログランク検定は、時間層別化されたコクラン=マンテル=ヘンツェル検定と見なすこともできる。

この検定は、ネイサン=マンテルによって最初に提案され、リチャード・ピートジュリアン=ピート(英語版)によってログランク検定と命名された[1][2][3]

定義

ログランク検定統計量は、観察された各事象の時間における2つのグループのハザード関数の推定値を比較する。これは、観察された事象の時間ごとに、いずれかのグループでの事象の観測数と期待数を計算し、これらを加算して、事象があったすべての時点にわたる全体的な要約を得ることによって構築される。

患者の2つのグループ、たとえば治療群と対照群を考える。 どちらかのグループで観察された事象の明確な時間を 1 , , J {\displaystyle 1,\ldots ,J} とする。 N 1 , j {\displaystyle N_{1,j}} および N 2 , j {\displaystyle N_{2,j}} を、それぞれのグループ内における、時間 j {\displaystyle j} の開始時点での「リスクがある」(まだ事象が発生していない、または打ち切られていない)被験者の数とする。また、 O 1 , j {\displaystyle O_{1,j}} および O 2 , j {\displaystyle O_{2,j}} を、時間 j {\displaystyle j} における各群で観測された事象の数とする。最後に、 N j = N 1 , j + N 2 , j {\displaystyle N_{j}=N_{1,j}+N_{2,j}} O j = O 1 , j + O 2 , j {\displaystyle O_{j}=O_{1,j}+O_{2,j}} を定義する。

帰無仮説は、2つのグループのハザード関数が同一であるというもので、 H 0 : h 1 ( t ) = h 2 ( t ) {\displaystyle H_{0}:h_{1}(t)=h_{2}(t)} となる。したがって、 H 0 {\displaystyle H_{0}} の下では、各グループ i = 1 , 2 {\displaystyle i=1,2} に対して、 O i , j {\displaystyle O_{i,j}} はパラメータ N j {\displaystyle N_{j}} , N i , j {\displaystyle N_{i,j}} , O j {\displaystyle O_{j}} を持つ超幾何分布に従う。この分布は、期待値が E i , j = N i , j O j N j {\displaystyle E_{i,j}=N_{i,j}{\frac {O_{j}}{N_{j}}}} 、分散が V i , j = E i , j ( N j O j N j ) ( N j N i , j N j 1 ) {\displaystyle V_{i,j}=E_{i,j}\left({\frac {N_{j}-O_{j}}{N_{j}}}\right)\left({\frac {N_{j}-N_{i,j}}{N_{j}-1}}\right)} である。

ログランク統計量は、すべての j = 1 , , J {\displaystyle j=1,\ldots ,J} について、 O i , j {\displaystyle O_{i,j}} H 0 {\displaystyle H_{0}} のもとでの期待値 E i , j {\displaystyle E_{i,j}} と比較するものである。これは Z = j = 1 J ( O i , j E i , j ) j = 1 J V i , j   d   N ( 0 , 1 ) {\displaystyle Z={\frac {\sum _{j=1}^{J}(O_{i,j}-E_{i,j})}{\sqrt {\sum _{j=1}^{J}V_{i,j}}}}\ {\xrightarrow {d}}\ {\mathcal {N}}(0,1)}      ( i = 1 {\displaystyle i=1} または 2 {\displaystyle 2} の場合) として定義されている。

中心極限定理により、 Z {\displaystyle Z} の分布は、 J {\displaystyle J} が無限に近づくにつれて標準正規分布の分布に収束するため、十分に大きな J {\displaystyle J} に対しては標準正規分布で近似することができる。Peto and Petoの論文の付録Bで記述されているように、この量を、ピアソンの第1種ベータ分布または第2種ベータ分布(最初の4つのモーメントを一致させる)と等しくすることにより、より良い近似が得られる[2]

漸近分布

2つのグループが同じ生存関数を持つ場合、ログランク統計量は近似的に標準正規分布となる。片側レベル α {\displaystyle \alpha } 検定は、 Z > z α {\displaystyle Z>z_{\alpha }} ならば帰無仮説を棄却する。ここで z α {\displaystyle z_{\alpha }} は、標準正規分布の上位 α {\displaystyle \alpha } 分位点である。ハザード比 λ {\displaystyle \lambda } 、被験者総数を n {\displaystyle n} 人、どちらかの群の被験者が最終的に事象を起こす確率を d {\displaystyle d} (したがって、 n d {\displaystyle nd} は分析時の事象の期待数)、各群に無作為に割り振られた被験者の割合を50%とすると、ログランク統計量は平均 ( log λ ) n d 4 {\displaystyle (\log {\lambda })\,{\sqrt {\frac {n\,d}{4}}}} 、分散 1 の近似正規分布となる[4]。検出力 1 β {\displaystyle 1-\beta } の片側レベル α {\displaystyle \alpha } 検定の場合、必要な標本サイズは n = 4 ( z α + z β ) 2 d log 2 λ {\displaystyle n={\frac {4\,(z_{\alpha }+z_{\beta })^{2}}{d\log ^{2}{\lambda }}}} となり、ここに z α {\displaystyle z_{\alpha }} z β {\displaystyle z_{\beta }} は標準正規分布の分位数である。

同時分布

Z 1 {\displaystyle Z_{1}} および Z 2 {\displaystyle Z_{2}} を、同じ検定の2つの異なる時点でのログランク統計量であるとする( Z 1 {\displaystyle Z_{1}} が先)。ここでも、2つのグループのハザード関数がハザード比 λ {\displaystyle \lambda } に比例し、 d 1 {\displaystyle d_{1}} d 2 {\displaystyle d_{2}} d 1 d 2 {\displaystyle d_{1}\leq d_{2}} の2つの時点で被験者が事象を起こす確率であると仮定する。 Z 1 {\displaystyle Z_{1}} および Z 2 {\displaystyle Z_{2}} は、平均 log λ n d 1 4 {\displaystyle \log {\lambda }\,{\sqrt {\frac {n\,d_{1}}{4}}}} log λ n d 2 4 {\displaystyle \log {\lambda }\,{\sqrt {\frac {n\,d_{2}}{4}}}} 、相関 d 1 d 2 {\displaystyle {\sqrt {\frac {d_{1}}{d_{2}}}}} を持つ近似二変量正規分布である。データモニタリング委員会(英語版)による1つの検査でデータが複数回が調査された場合、エラー率を正しく維持するためには、同時分布を含む計算が必要となる。

他の統計との関係

  • ログランク統計量は、2つのグループを比較するCox比例ハザードモデルスコア検定(英語版)として導出できる。したがって、その統計量は、そのモデルに基づく尤度比検定統計量と漸近的に等価である。
  • ログランク統計量は、比例ハザード代替性[訳語疑問点]を持つ任意の分布族の尤度比検定統計量と漸近的に等価である。たとえば、2つの標本からのデータが指数分布を持つ場合がある。
  • Z {\displaystyle Z} をログランク統計量、 D {\displaystyle D} を観察された事象の数、 λ ^ {\displaystyle {\hat {\lambda }}} をハザード比の推定値とすると、 log λ ^ Z 4 / D {\displaystyle \log {\hat {\lambda }}\approx Z\,{\sqrt {4/D}}} である。この関係は、2つの量が分かっている場合(たとえば、発表された論文から)、3つ目の量が必要な場合に有用である。
  • ログランク統計量は、観測が打ち切られている場合に使用できる。データに打ち切られた観測が存在しない場合、ウィルコクソンの順位和検定が適切である。
  • ログランク統計量は、事象が発生した時間にかかわらず、すべての計算に同じ重みを与える。ピートログランク検定統計量は、観測値の数が多い場合、初期の事象により多くの重みを与える。

検定の仮定

ログランク検定は、カプラン=マイヤー生存曲線と同じ仮定に基づいている。すなわち、打ち切りは予後とは無関係であり、生存確率は研究の初期と後期に募集された被験者で同じであり、事象は指定された時間に起こったという仮定である。これらの仮定からの逸脱が問題となるのは、比較されるグループ間で充足の度合いが異なる場合である。たとえば、あるグループでは打ち切りが他のグループよりも起こりやすいなどである[5]

参照項目

ポータル 数学
ポータル 数学

脚注

  1. ^ Mantel, Nathan (1966). “Evaluation of survival data and two new rank order statistics arising in its consideration.”. Cancer Chemotherapy Reports 50 (3): 163–70. PMID 5910392. 
  2. ^ a b Peto, Richard; Peto, Julian (1972). “Asymptotically Efficient Rank Invariant Test Procedures”. Journal of the Royal Statistical Society, Series A (Blackwell Publishing) 135 (2): 185–207. doi:10.2307/2344317. hdl:10338.dmlcz/103602. JSTOR 2344317. 
  3. ^ Harrington, David (2005). “Linear Rank Tests in Survival Analysis”. Encyclopedia of Biostatistics. Wiley Interscience. doi:10.1002/0470011815.b2a11047. ISBN 047084907X 
  4. ^ Schoenfeld, D (1981). “The asymptotic properties of nonparametric tests for comparing survival distributions”. Biometrika 68 (1): 316–319. doi:10.1093/biomet/68.1.316. JSTOR 2335833. 
  5. ^ Bland, J. M.; Altman, D. G. (2004). “The logrank test”. BMJ 328 (7447): 1073. doi:10.1136/bmj.328.7447.1073. PMC 403858. PMID 15117797. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC403858/. 
標本調査
要約統計量
連続確率分布
位置
分散
モーメント
カテゴリデータ
推計統計学
仮説検定
パラメトリック
ノンパラメトリック
その他
区間推定
モデル選択基準
その他
ベイズ統計学
確率
その他
相関
モデル
回帰
線形
非線形
時系列
分類
線形
二次
非線形
その他
教師なし学習
クラスタリング
密度推定(英語版)
その他
統計図表
生存分析
歴史
  • 統計学の創始者
  • 確率論と統計学の歩み
応用
出版物
  • 統計学に関する学術誌一覧
  • 重要な出版物
全般
その他
カテゴリ カテゴリ