Excel(エクセル)における回帰分析の手順と出力の意味を説明します。
このページでは、Excel での表示と対応させながら回帰分析(最小二乗法)の性質を紹介します。
推定や統計量の理解にも役立ちます。
目次 : (2)分析ツールでの回帰分析の手順からの続きです。
ここでは、この『Excelにおける回帰分析』で用いる記号と表記を説明します。まず、回帰分析の被説明変数はで表します。合計個の標本を用いて推定するとし、個目の標本の被説明変数はと下添え字をつけて表記します。また、回帰分析の説明変数はで表します。ところでという単回帰においてもとして、切片にあたるには常に1の説明変数がついていると見なせます。全ての標本に対して1をとる切片用の説明変数を1種類目に数え、データで与える説明変数は2種類目から数えます。標本の種類目の説明変数はと下添え字を並べて表記します。
回帰分析(最小二乗法)から得られた推定係数はで表します。切片の推定係数はとし、種類目の説明変数の推定係数をと表記します。また、推定係数と説明変数があれば、当てはめ値(の予測値)を算出することができます。当てはめ値を(ハット)と表記すると、合計種類の説明変数による標本に対するは、以下の(1)式のように表すことができます。
(1) |
なお(1)式で表されるが被説明変数に一致するケースはほとんどなく、両者の間には推定エラーが存在します。推定エラーは、標本に関して回帰分析で説明できない部分に相当します。逆に言えば、結果的に算出された推定エラーを用いて、当てはめ値を調整すると、(2)式のように被説明変数になります。
(2) |
回帰分析(最小二乗法)では、種類目の説明変数と推定エラーの積を個の標本で合計すると
(3) |
と必ず0になります。0になっていることを確認したい場合は、乱数データの[乱数シート]でV〜Y列の62行目にある平均値がF9を押しても、0から動かないことで確かめてください。平均値が0なので、標本数をかけた合計値も0になることが分かります。
記号と表記に示したように、(1)式の切片であるには常に1の説明変数が付いていると考えることができます。すると(3)式の性質は、
(4) |
と推定エラーの総和が0と書きかえることができます。の平均を(バー)とすると、切片を含めた回帰分析では、推定エラーの総和や平均は必ず0になります。
また、(2)式の両辺にをかけ、総和をとると
(5) |
と当てはめ値と推定エラーの積の総和も0になることが分かります。総和が0なので、標本数で割った平均値も0になります。
(2)式のを標本で総和をとります。
(6) |
また、(4)式で示されるように切片のある回帰分析では、(6)式の右辺第二項のは0になります。よって(6)式は
(7) |
と、被説明変数と当てはめ値の総和同士が等しい条件に書きかえることができます。総和が等しいので標本数で割った平均も等しくなります。よっての標本平均を(バー)で表すとです。また、当てはめ値の平均を説明変数を用いて書くと
(8) |
となります。(8)式は[被説明変数の平均]=[当てはめ値の平均]=[回帰式に説明変数の平均を代入した値]であることを示しています。つまり、切片のある回帰分析において回帰線は必ず被説明変数、説明変数の標本平均を通ります。このため、乱数データの[乱数シート]では、の平均値〈B62〉との平均値での当てはめ値〈B67〉は常に一致します。
ところで、切片を含めた回帰分析の特殊形の『切片のみでの回帰分析』を考えます。すると(8)式は
(9) |
となります。つまり、切片のみの回帰分析において切片の高さは被説明変数の標本平均になります。また、回帰分析(最小二乗法)の発想に戻ると(9)式は
(10) |
となります。(10)式から切片のみの回帰分析においてを最小化する切片は、被説明変数の標本平均であることが分かります。
下図のようなの4つの標本に対して単回帰を行う場合を考えます。回帰分析から得られるの当てはめ値を、の当てはめ値をで表します。
この例ではの標本はの1つしかありません。また、の値に依存せず、必ずとを結ぶ直線を書くことができます。このため、がになることは明らかです。一方、は(10)式のをとして、同種の問題を解くことになります。するとはの標本におけるの平均値から、となることが分かります。
よって回帰線はとを結ぶ直線として
(11) |
になります。(11)式では、が1増えた場合のへの効果はです。この推定係数はの平均値になっています。(11)式から類推されるように、回帰分析(最小二乗法)から得られる推定係数は、平均的な効果を算出しています。
目次 : (4)回帰分析全体に関する出力に続きます。