[Excelにおける回帰分析 (3)最小二乗法の性質] はてなブックマークに追加

Excel(エクセル)における回帰分析の手順と出力の意味を説明します。
このページでは、Excel での表示と対応させながら回帰分析(最小二乗法)の性質を紹介します。
推定や統計量の理解にも役立ちます。

関連ファイル
Excelにおける回帰分析(最小二乗法)の手順と出力:このHTMLの印刷板に当たる18ページのPDF(約480KB)です。
Excelにおける回帰分析(最小二乗法)用乱数データ:乱数を用いて、推定値の挙動を見ることのできるExcel(約100KB)です。
分散の不偏推定量:偏差平方和を(n-1)で割ると分散の不偏推定量になることが視覚的に確認できるExcel(約80KB)です。
中心極限定理と擬似正規乱数:一様分布の標本平均が正規分布に近づくことや統計における検定のアイディアが視覚的に確認できるExcel(約60KB)です。
学校は人的資本を形成するのか? (1)教育の経済学:分布やシミュレーションを使って、学歴と平均賃金の関係を説明するHTMLです。
学校は人的資本を形成するのか? (2)賃金格差の実証分析:日本の学歴間賃金格差の実証分析を説明するHTMLです。

目次(2)分析ツールでの回帰分析の手順からの続きです。


記号と表記

ここでは、この『Excelにおける回帰分析』で用いる記号と表記を説明します。まず、回帰分析の被説明変数はyで表します。合計n個の標本を用いて推定するとし、i個目の標本の被説明変数はyiと下添え字をつけて表記します。また、回帰分析の説明変数はxで表します。ところでy=a+bxという単回帰においてもy=a・1+bxとして、切片にあたるaには常に1の説明変数がついていると見なせます。全ての標本に対して1をとる切片用の説明変数を1種類目に数え、データで与える説明変数は2種類目から数えます。標本ij種類目の説明変数はxijと下添え字を並べて表記します。

回帰分析(最小二乗法)から得られた推定係数はbで表します。切片の推定係数はb1とし、j種類目の説明変数の推定係数をbjと表記します。また、推定係数と説明変数があれば、当てはめ値(yの予測値)を算出することができます。当てはめ値をyhatyハット)と表記すると、合計k種類の説明変数による標本iに対するyhatは、以下の(1)式のように表すことができます。

yhatの式 (1)

なお(1)式で表されるyhatが被説明変数yiに一致するケースはほとんどなく、両者の間には推定エラーeiが存在します。推定エラーeiは、標本iに関して回帰分析で説明できない部分に相当します。逆に言えば、結果的に算出された推定エラーeiを用いて、当てはめ値yhatを調整すると、(2)式のように被説明変数yiになります。

yの式 (2)

3.1 説明変数と推定エラーの積の総和は0になる

回帰分析(最小二乗法)では、j種類目の説明変数xjと推定エラーeの積をn個の標本で合計すると

xeの総和=0 (3)

と必ず0になります。0になっていることを確認したい場合は、乱数データ[乱数シート]でV〜Y列の62行目にある平均値がF9を押しても、0から動かないことで確かめてください。平均値が0なので、標本数nをかけた合計値も0になることが分かります。

記号と表記に示したように、(1)式の切片であるb1には常に1の説明変数が付いていると考えることができます。すると(3)式の性質は、

eの総和=0 (4)

と推定エラーeの総和が0と書きかえることができます。eの平均をebareバー)とすると、切片を含めた回帰分析では、推定エラーの総和ebarや平均ebarは必ず0になります。

また、(2)式の両辺にeiをかけ、総和をとると

xeの総和=0 (5)

と当てはめ値yhatと推定エラーeの積の総和も0になることが分かります。総和が0なので、標本数nで割った平均値も0になります。

説明変数と推定エラーの積の総和は0になる


3.2 回帰線は説明変数と被説明変数の標本平均を通る

(2)式yの式を標本nで総和をとります。

Σy=Σyhat+Σe (6)

また、(4)式で示されるように切片のある回帰分析では、(6)式の右辺第二項のebarは0になります。よって(6)式は

Σy=Σyhat (7)

と、被説明変数yと当てはめ値yhatの総和同士が等しい条件に書きかえることができます。総和が等しいので標本数nで割った平均も等しくなります。よってyの標本平均をyyバー)で表すとyhatです。また、当てはめ値の平均yhatを説明変数を用いて書くと

yの標本平均=当てはめ値の平均=Xの標本平均×b (8)

となります。(8)式は[被説明変数yの平均]=[当てはめ値yhatの平均]=[回帰式に説明変数xの平均を代入した値]であることを示しています。つまり、切片のある回帰分析において回帰線は必ず被説明変数y、説明変数xの標本平均を通ります。このため、乱数データ[乱数シート]では、yの平均値〈B62〉とxの平均値での当てはめ値〈B67〉は常に一致します。

回帰線は説明変数と被説明変数の平均値を通る

ところで、切片を含めた回帰分析の特殊形の『切片のみでの回帰分析』を考えます。すると(8)式は

切片のみの回帰は被説明変数の標本平均 (9)

となります。つまり、切片のみの回帰分析において切片の高さb1は被説明変数の標本平均yになります。また、回帰分析(最小二乗法)の発想に戻ると(9)式は

b1を動かして最小化 (10)

となります。(10)式から切片のみの回帰分析においてebarを最小化する切片b1は、被説明変数の標本平均yであることが分かります。


3.2 推定係数は平均的な効果になる

 下図のような単回帰用の4つの標本の4つの標本に対して単回帰を行う場合を考えます。回帰分析から得られるx=0の当てはめ値をyx0x=1の当てはめ値をyx1で表します。

4つの標本で単回帰

この例ではx=0の標本は0,y1の1つしかありません。また、yx1の値に依存せず、必ず0,y10y1を結ぶ直線を書くことができます。このため、yx0y1になることは明らかです。一方、yx1(10)式b1yx1として、同種の問題を解くことになります。するとyx1x=1の標本におけるyの平均値から、y=(y2+y3+y4)/3となることが分かります。

よって回帰線は0,y11,(y2+y3+y4)/3を結ぶ直線として

単回帰の回帰線 (11)

になります。(11)式では、xが1増えた場合のyへの効果は単回帰の推定係数です。この推定係数は(y2-y1), (y3-y1), (y4-y1)の平均値になっています。(11)式から類推されるように、回帰分析(最小二乗法)から得られる推定係数は、平均的な効果を算出しています。


目次(4)回帰分析全体に関する出力に続きます。