正規分布型適合度検定と反復切断法
-------- 分布型について --------
統計処理データ殆どが,正規分布を前提として組み立てられている.しかし医学データの殆どは厳密には正規分布でないものも多い.
このような場合には,ノンパラメトリックな方法を用いて処理すべきであるが,べき乗変換によって正規化し,データ処理後(検定・反復切断など)元に戻す方法によって,より検出力の高いデータを得ることが出来る.
本プログラムでは,−1〜2までのべき乗変換(5種)を行なった後,χ2値を算出し,分布型を求めるものである.
--- χ2乗適合度検定について ----
χ2乗適合度検定は,予測値に対するずれを表現する.
ここでは,正規分布に対するデータ分布のずれを求めるために使用している.
有意水準 5%の χ2値は 18.3であるため,元データ分布の χ2値がこの数値より小さい場合は,その分布は正規分布型であると判定される.
ただし,本ソフトウェアでは区画数を 13 に固定していることから,データ数として 120 以上必要.
正規分布の検定 実行方法:
@ 元データのブルーの欄にデータを入力する.
データを入力できるセルはブルーのセルのみ
(B8:B5032)
A 分布型検定ボタンを押すと右図のようなウィンドウが表示されるので,目的の項目を実行する。
このとき一番上の入力データのバックアップを必ず一度だけ実施。複数回実行すると元データが失効してしまう.
「各べき乗変換後のχ2値表示」は−1〜2までのべき乗変換(5種)を行った場合のχ2値を示す。ここでのχ2値を参考にして次のべき乗変換を行う.χ2値が小さければ小さいほど正規分布型に近いことを示す.
「べき乗変換の選択」では元データ欄のデータを目的の値に変換し、そのときのヒストグラム表示を行い、分布型を視覚的に確認するとともに,χ2値・尖度・歪度をみて分布形態を知る.
「元データに戻す」は,べき乗変換されたデータを入力時のデータの戻す機能である.
--------- 反復切断法 ---------
生物学的な実験においては,思わぬ異常値が混入する場合がある.これらのデータを除去することは,ある程度やむを得えないと考えられる.
除去の仕方としては,
@データの±2SDまたは±3SD以上の値を切り捨てる.
Aデータの±2SDから±3SD以上の値を繰り返し切り捨てていく反復切断法(臼井法).などがある.
反復切断法とは,異常データを削除する一つの方法であり,指定した切断SD値によって繰り返し異常データを削除するものである.
除去する場合,小さいSDで外れ値を除外すると,除外してはならないデータを誤って外れ値としてしまう危険性が高くなり,大きいSDで除外すると極端値混入の危険性が高くなる.臼井法の場合2.6SDが適当といわれている.
ただし,生物学的実験データ以外の統計学上のデータはスルミノフ棄却検定において1つのデータを除くことしかできない.なお、反復切断法は正規分布に対して行うべきものであるため,切断を実行する前には分布型を確認する必要がある.このとき分布が正規分布でない場合,上記のべき乗変換を実行し出来るだけ分布型を正規分布に近づける事が望ましい.サンプルデータのように歪んだデータの場合、高値データのみが切断されることになる.
実行方法:
O データを入力できるセルはブルーのセルのみ
(B8:B5032)
χ2値・尖度・歪度およびヒストグラムから分布形態を観察し、正規分布から著しく異なる場合は、上記の「べき乗変換」を行い正規分布に近づけた後実施する.
O 計算する「データ数」と切断するための「標準偏差(SD)」を入力後[反復切断実行]ボタンを押す.
O 切断後のデータ分布がリアルタイムで表示される.ただし,グラフの処理に時間がかかるため,データ数が多いと非常に時間がかかる.切断中の文字が切断終了となるまで待つ(D4).なお,グラフの折れ線図は T分布を示す.
O 「べき乗変換」後に反復切断を実行した場合は、このあと分布検定の「元データに戻す」を実行してデータを戻し、切断されたデータを参考にして削除するデータを確認しながら手作業でデータを削除して反復切断後の値を求める。