無事合格できた統計検定2級ですが、まとめを書いておきたいと思います。まず今回の反省点は、時間を掛け過ぎたということです。問題集を集中的に回し始めてから、理解度の向上をはっきり実感できたので、テキストは理解度が曖昧な状態でも一巡したら、早々に問題演習に入ったほうが良かったですね。
統計検定2級の問題は、個々の論点は難しくないのですが、最初はどの解法を使えばいいのか分からないことが多かったです。最終的には必要な公式は暗記しておく必要があるのですが、年齢のせいか昔より記憶が定着しづらくなっていますね。公式は丸暗記ではなく自分で導出できるようにしておいた方が良いと言われますが、それは暗記している前提の下、それを忘れたときの緊急手段かと思います。時間の限られた試験では、最短で答えに辿り着ける公式の暗記は必須です。
勉強時間は以下の通りです。まずは以前も掲載した昨年末あたりまでの勉強時間です。テキスト読みをもう少し削るべきでした。
- 統計学基礎テキスト読み:1933分
- 過去問演習:567分
- 統計WEB統計学の時間読み:1362分
- 公式問題集(2018~2021)演習:1917分
- 復習:607分
以降は年明け以降のCBT対応版公式問題集による演習です。1周回して、それから誤答問題を中心に2周目を回しました。
- 公式問題集(CBT対応版)演習:749分
- 演習結果による復習:105分
- 公式問題集(CBT対応版)演習(誤答問題限定):445分
合計の勉強時間は、7685分(128時間)となります。1年以上かけてダラダラ勉強したので時間がかさんでいます。集中的に勉強したら、ここまでの時間は必要ないかと思います。
最後に個人的なチートシートをまとめておきます。他の人が作ったチートシートはとても便利で自分も試験前に参照しましたが、一方で自分用のチートシートを作っておくことも学習する上で有用かと思います。特に何となく自分が腑に落ちない点を調べて、納得できる説明を書いておくと役立ちました。なお、自分のイメージを捉えるために書いている部分もあり、一般的な書き方に照らすと普通に誤ったことを書いている可能性もあるので、緩く見てください。転記している最中も、何か変だな、と思って消した箇所もありました(^^;
- 質的データ
- 名義尺度:項目間に関係がない
- 順序尺度:項目間に順序関係がある
- 量的データ
- 間隔尺度:原点はない。気温など。
- 比例尺度:原点がある。体重など。
- 確率変数
- 一定の確率に基づいて、複数の値を取る。取りうる値に発生確率を掛けて、その総和を取った値が期待値となる。発生確率の総和は1。
- 確率関数
- 引数に渡した値が発生する確率。
- 分散
- 確率変数から平均を引いて二乗した値の総和を、要素数で割ったもの
- 確率分布
- 確率のヒストグラム。横軸を確率変数の値はとして、縦軸を確率変数を引数にした確率関数の値とする。確率関数のグラフとも言える。
- 分布関数
- 累積分布関数と同義。引数以下の値をとる確率を表す。最大値は1。
- 標準偏差
- 分散の平方根。元の観測単位と揃えることが目的。
- 期待値
- 離散値の場合、各値とその出現確率の積和。サイコロの出目なら、11/6 + 21/6 + …+ 61/6。
- 独立
- P(A∧B) = P(A)P(B)
- 排反
- P(A∨B) = P(A)+P(B)
- ベイズの定理
- P(Bi|A) = P(A|Bi)P(Bi) / Σ (P(A|Bi)P(Bi))
- ベイズの定理や条件付き確率の使いどころは、前提条件によって確率が変化するようなケース。つまり独立ではない2つの事象を扱うときである。
- 信頼係数
- 母数が信頼区間内に含まれる確率。95%など。1.96などは上側xx%点、という。
- 変動係数
- 標準偏差を平均値で割った値。比例尺度の場合のみ有用。平均値が大きいほどバラツキが、大きいことを踏まえて、複数データ群のバラツキを比較するために用いる値。
- 標準化得点
- 特定のデータがどれだけ平均から離れているかを標準化した値。異なるデータ群でも比較が可能になる。データから平均値を引いた値を標準偏差で割った値。
- 共分散
- x,yそれぞれの平均値との差をかけた値の総和をデータ数で割った値。 x,yの積の総和をデータ数で割った値から、x,yのそれぞれの平均値の積を引いても良い。 共分散は分散の一般化ともいえる。x = yとした場合、分散と同じになる。 共分散はx,yという2つのパラメータがあるので二次元のばらつきとなる。通常の分散は一次元のばらつきとなる。
- 相関係数
- xyの共分散をxの標準偏差とyの標準偏差の積で割った値。共分散のスケールを揃えるためのルール。ばらつきの大きい2組のデータと、ばらつきの小さい2組のデータとの間で、相関度合いを比較したいケースで活用される。
- 偏相関係数
- 2つのデータの相関係数から、第三のデータの影響を排除したもの。元々3つのデータの相関がある状態で、特定の2つに絞って相関係数を見る、と考えると、偏微分と同じイメージになる。 ρxy,z = (ρxy-ρxzρyz) / (( (1-(ρxz)^2)^(1/2) ) ( (1- (ρyz)^2)^(1/2) ) ) ※これはzの影響を除いたxとyの相関係数、という意味。 ※偏相関係数は、疑似相関を疑うデータ間において、第3のデータとの相関によらない残差で、相関関係を見ているもの
- 散布図
- 相関係数が1に近いと右肩上がりの直線に近づく。相関係数の値と散布図のばらつき度合いは、0.3, 0.5, 0.8 くらいで暗記しておくと良い。
- 標本
- 母集団から抜き出した、統計値
- 母集団
- 統計データのない部分まで含む、集団の全体。これを推測するのが推測統計。
- 歪度
- 各標本から平均値を引いた値の3乗の期待値を標準偏差の3乗で割った値。3乗だと正負の符号が残る。 なので正負と大きさによって、、左右への偏りが分かる。正規分布など左右対称な場合は0になる。
- 尖度
- 各標本から平均値を引いた値の4乗の期待値を標準偏差の4乗で割った値。4乗だと符号が正のみになる。分子の値が大きいほど、標本がより広く分散していることになる。分母である標準偏差が小さいほど、平均値に標本が集中し、中央の山が高くなる。つまり分母が小さくなるので尖度の値も大きくなり、尖った状態になる。 正規分布の尖度は0 or 3になる(定義が複数ある)
- 時系列データ
- 傾向変動は長期的な変動。 季節変動は1年単位での変動。 不規則変動はそれ以外の偶然の変動。
- 移動平均
- 時系列データにおいて、対象時点の前後一定期間の平均値を取ること
- コレログラム
- 時系列データにおいて元データと周期をずらした際の自己相関係数を表したグラフ。縦軸の値は自己相関係数。同じ傾向が見られる場合、正方向に大きな値となる。逆の傾向が見られる場合は、負方向に大きな値になる。
- 変化率
- 比較時と基準時の差を基準時で割り100掛けた値。
- 平均変化率
- a(1+r)^n=bのr
- ラスパイレス指数
- 数量に基準年の数量を利用
- パーシェ指数
- 数量に比較年の数量を利用
- 最新のデータの数量を調べにくいならラスパイレス指数、過去のデータを調べにくいならパーシェ指数を使う。価格はどちらの指数も分母が基準年で分子が比較年となる。いすれも変化率を知ることが目的となる。
- 系統抽出法
- 連番を振って一定間隔で抽出する
- 層化抽出法
- いくつかのグループに分けて各グループから無作為に抽出する。層化といっても階層ではない。
- クラスター抽出法
- いくつかのグループに分けた後、選んだグループを全数調査する。
- 多段抽出法
- 都道府県、市、という風に階層化した構造で無作為に選んでいく。
- フィッシャーの三原則
- 良い結果を得る実験計画法。
- 局所管理:実験を行う範囲、場所時間などを区切り、背景情報がなるべく均一になるようにする。
- 無作為化
- 繰り返し
- 期待値と分散の演算の便利公式
- V[X+Y]=V(X)+V(Y)+2cov(x,y)
- V(X-Y)=V(X)+V(Y)-2cov(x,y)
- E(X^2)=V(X)+(E(X))^2
- 二項分布
- 結果が二値の試行を繰り返して、一方の結果になる回数の分布。
- 分布:nCx((p)^x)((1-p)^(n-x))
- 期待値:np
- 分散:np(1-p)
- ポアソン分布
- 分布:(e^(-λ)λ^(x))/x!
- 期待値と分散:λ
- λ=np (nがとても大きくpがとても小さい)
- 幾何分布
- ベルヌーイ試行で一方の値が出るまでの試行回数の分布。
- 分布:p(1-p)^(x-1)
- 期待値:1/p
- 分散:(1-p)/(p^2)
- 不偏分散
- イメージとしては、標本分散はサンプル数が母集団に比べて小さいので、分散も母分散より小さくなる(サンプルから漏れた、より極端な値がある可能性)。なので1/nではなく1/(n-1)で割れば、少し分散が大きくなり、母分散に近づく。
- 標準誤差
- 母集団から取り出した標本の平均値のばらつきを示すもの。サンプル数nの標本は選ぶたびに選ばれるものが変わるので、平均値も変わる。
- SE=σ/((n)^(1/2))
- 母集団から抽出した標本平均の標準偏差と同義。標準誤差は各サンプルセット毎の標本値の平均のばらつき具合。
- 一致性と不偏性
- 一致性は、推定値が真の値に一致する度合い。サンプルサイズが増えれば一致度合いが上がる。
- 不偏性は、外れ具合(ばらつき)が常に変わらない度合い。真の値に近いときも、真の値から遠いときも、ばらつきが同じであること。
- 例えば、真の値が5のときに、推定値が1,9,2,8なら不偏性があり、1,1,1,9なら不偏性がない。何度もサンプルを取る場合を考えると、毎回のサンプル群の平均値をサンプルセット間で取った場合にその値が母数の平均値になる。不偏性は、サンプルサイズが小さくてもその期待値は母数に近いことを意味する。
- 標本平均は一致性、不偏性ともに持つ。
- 試行を重ねると真値に近づく場合は一致推定量で、何度かデータを取ればその平均が真値であれば不偏推定量。
- 一致推定量だが不偏推定量ではないものはあるが、逆はない(例外的に、サンプル数を増やせないケースは不偏だが一致ではない、というケースがある)。不偏であれば小サンプルでも推定量に近づくから。一致推定量だが不偏推定量ではないケースは特定の偏りを見せつつ、やがて推定量に収束するケース。
- 一致推定量でもないケースはいくら試行を重ねても発散して収束しないケース。標本分散がその例。
- 信頼区間
- 信頼係数が大きいほど、同じサンプルサイズなら信頼区間も広くなる。信頼区間が広ければ、母平均を含む可能性が高くなるから。
- サンプルサイズが大きいほど、精度が上がって、母平均の推定幅も狭くできる。
- 検定統計量
- サンプルの特徴を表す、アルゴリズムで決定される特定の値。
- 両群に差があるか検定する
- A群とB群に差があることを示したい場合は、両群の平均値の差を統計量とする。そして差がないことを帰無仮説として定義して、差があることを対立仮説とする。
- 両群が正規分布に従う場合、その差も正規分布に従う。正規分布に従うので、任意の有意水準を定義して、それに対応する検定統計量を求める。その値と実際の両群の差から求めた検定統計量を比較する。有意水準の検定統計量より観測値の検定統計量が大きければ、差がないという帰無仮説は棄却され、差があるという対立仮説が採択される。
- 統計量の値が大きい方を有意にしているのは、棄却したい帰無仮説が成立する場合の統計量が0に設定されているから
- P値は帰無仮説が正しい場合、その検定統計量の特定値のとりうる確率。
- このP値に対して有意水準を設定して、帰無仮説の妥当性を判斷する。
- P値が小さければ、それは偶然には滅多に起こらない事象なので、偶然に観測されたものではなく、有意なものだと判断できる。その結果、差がないという帰無仮説を棄却できる。
- P値は、既に起きた観測値の発生確率なので、P値が低いほど、有意な結果が出たと言える。
- 正規分布
- 母分散が分かっている場合
- t分布
- 正規分布と似ているが自由度によって形が変わる。母分散が不明で、標本から求めた不偏分散を利用する場合に有用。
- カイ二乗分布
- 各標本の二乗和を統計量とする場合に有用。分散、適合度検定(実測値と理論値のズレを二乗してその和を統計量とする)、独立性検定など。
- 推定と検定。
- 推定した結果が妥当であるか判断することが検定。使う道具も似ているのでまとめて覚える。
- 点推定
- 標本から得られた平均値などの値をそのまま母数として推測する方法。大数の法則に基づき、サンプル数が多ければ真に近づく。
- 区間推定
- 信頼区間を用いて、区間で母数を推定する。
- 区間は信頼係数(5%の両側なら1.96)に標準偏差を乗じる。信頼係数に掛ける値は、区間推定の種類ごとに別々に根拠がある。各分布の分散と平均に基づく。母分散はわかるけど分布は不明。その場合サンプル数が多いと、その標本群は正規分布に近づく。母分散/サンプル数。
- 標本平均の標準化。
- 母集団がどのような分布であってもサンプルの数が増えると正規分布に近づく。これが中心極限定理。この時標本平均の分布(標本分布)は、平均は母平均となり、標準偏差は母標準偏差/(サンプルサイズ)^(1/2)となる。これらの値を使い標準化をしてZ値を求められる。
- 母平均の区間推定
- 母分散既知:Z推定
- 標本平均±信頼係数(σ/(n)^(1/2))
- 母分散未知
- t推定 標本平均±信頼係数(s/(n)^(1/2))
- 母分散未知だがサンプル数大:Z推定(t分布に自由度がとても大きいケースがないことからもイメージできる)
- 母分散既知:Z推定
- 母平均の差の区間推定
- 対応があるデータ同士なら差の平均、差の不偏分散を求めて、通常の区間推定と同じように求める。
- 対応がない場合は、平均は標本平均の差を使う。分散はプールした分散を使う必要がある。公式を覚えておく必要がある。
- 母比率の区間推定
- 母比率は二項分布の確率pに対応する。
- 信頼係数に掛ける値は以下の通り。
- (p(1-p)/n)^(1/2)
- 母平均と違い、母比率では推定値がパーセント表示となるので、信頼係数と混同しないように注意。
- 母分散の区間推定
- カイ二乗分布を使う
- χ^2 = ((n -1 )s^2) / σ^2
- 2つの母集団
- 母平均の差の検定
- 対応のある2標本のt検定
- 各標本間の差を求めて、その差を標本として、通常のt検定を実施すればよい。
- 対応がなく、母分散既知もしくは大標本のZ検定
- 母分散既知ならZ検定が使え、大標本なら標本平均は正規分布に近づくのでZ検定が使える。母分散未知の大標本は不偏分散を使う。
- 等分散性仮定の2標本t検定
- 小標本、すなわち正規分布と見なせないサンプルサイズの場合。
- プールした分散を使う。(Xの偏差平方和 + Yの偏差平方和) / (Xの標本サイズ + Yの標本サイズ)
- 使う検定量は、(Xの標本平均-Yの標本平均)/(プールした分散(1/(Xの標本サイズ)+1/(Yの標本サイズ)))^(1/2)
- 身構えてしまう公式だけど、パーツ毎に分解すると、幾分覚えやすい。
- 対応のある2標本のt検定
- 母分散の比の検定
- 母比率の差の検定
- 母平均の差の検定
- 3つ以上の母集団
- 母平均の差の検定(分散分析)
- 因子はパラメータ。組など。
- 水準はパラメータの値。1組、2組など。
- 水準間で違いの有無を確認したいので、水準内平均と水準内の各データのズレを求めて、その後全体平均と各データのズレを求め、両者を比較して水準間による違いの有無を見る。水準による影響が強いなら、水準内でのデータのバラつき(ズレ)は小さくなる。
- まず全体の平均値、各水準内の平均値を求める。
- 各水準内平均値と全体平均値との差の平方和が水準間平方和。
- 各値と全体の平均値の差、と、その水準内平均値と全体平均値の差、の差の平方和が残差平方和。(各値と水準内平均値の差の平方和でもある)
- 全体、水準、残差の自由度を求める。
- 全体はデータ総数-1
- 水準は水準数-1
- 残差は上記の差。
- 平方和を自由度で割って平均平方を求める
- F値=因子の平均平方/残差の平均平方。この値に基づき、F分布で検定する。
- 帰無仮説を棄却できる場合
- 帰無仮説を否定できる
- 帰無仮説を棄却できない場合
- 対立仮説を肯定できない。かといって帰無仮説の肯定もできない。
- 第1種過誤
- 正しい帰無仮説を誤って棄却する。これは有意水準と同じ確率となる。
- 第2種過誤
- 誤っている帰無仮説を棄却しない
- 検出力
- 対立仮説が正しいときに帰無仮説を棄却できる確率
- 帰無仮説の正誤と検定結果の関係。
- 帰無仮説を棄却する、帰無仮説が正しい
- 第1種過誤。この確率は有意水準と同じ。
- 帰無仮説を棄却する、帰無仮説が誤り
- この確率が検出力
- 帰無仮説を棄却しない、帰無仮説が正しい
- この場合、帰無仮説が正しいとも言えない。何も結論が得られない玉虫色。
- 帰無仮説を棄却しない、帰無仮説が誤り
- 第2種過誤
- 帰無仮説は、本当に証明したい仮説、すなわち対立仮説のための道具。帰無仮説自体に興味はない。
- 帰無仮説を棄却する、帰無仮説が正しい
- 線形回帰
- t検定の値を確率に置き換えたものがPr。
- t検定の値が大きく、それが有意確率以下であれば、t検定の大きな値は偶然でた値ではなく、0以外の値であることが正しいだろうと言える。なので、その説明変数は有意であると判断する。
- 適合度検定
- 得られたサンプルの分布が特定の分布(例として理論上の分布)と適合するか判定する。
- 実測値と理論値からカイ2乗統計量を計算する。実測値と理論値の差の2乗/理論値、の総和。これは、理論値と実測値のズレを示す指標になる。これが有意水準を上回るとき、偶然ではないズレと考え、理論値と実測値が等しいという帰無仮説が棄却される。
- 独立性の検定
- 適合度検定と似ている。2つの水準間が独立という仮説、すなわち、割合が1対1を理論値として採用する(すなわちもう一方の水準の比率に従う)。そして実測値と理論値の総和を求めて、ズレが有意水準を上回れば、独立である_水準間が1対1である、が棄却される。(自由度は縦横の列行数をそれぞれマイナス1した値の積。(m-1)*(n-1) )
- 全般
- 公式のどこの項が未知の値、確率変数か、などを理解および意識しておく。