Excel(エクセル)における回帰分析の手順と出力の意味を説明します。
このページでは、実証分析を行う際の注意点を示します。
目次 : (5)説明変数に関する出力からの続きです。
このページでは、実証分析を行う際の注意点を説明します。例として、被説明変数を傘屋での【傘の販売本数】、説明変数を【降水量、風速、傘の価格】とした以下の(23)式を用います。[1]、[2]、[3]は水色の部分の回帰分析の式、[4]は黄色の部分のエラー、[5]と[6]はデータに関する注意点です。
(23) |
(23)式の形では【降水量】が『0mm→1mm』でも『100mm→101mm』でも一定の効果が【傘の販売本数】にあることを前提にしています。また、【降水量】と【風速】は独立して【傘の販売本数】に影響を与える形になっており、雨と風の相乗効果は考えていません。(23)式の形では、説明変数の効果が水準に依存せず一定であること、説明変数同士の相乗効果がないことをあらかじめ決めつけています。一般的に、あらかじめ決めつけた式の形が複雑な現実の関係を正しく表していると考える方が不自然です。実証分析において、回帰分析の式の形(関数形)はどうやっても近似にすぎませんが、無理のない近似になっている必要があります。『回帰分析の式の形は、現実の関係の無理のない近似になっているか?』という注意点があります。
式の形が現実の良い近似となるように、被説明変数や説明変数をあらかじめ変換しておく場合があります。例えば、被説明変数に自然対数をとることで推定係数はが1増えた場合のの変化率として解釈できます。 また、説明変数に自然対数をとることで推定係数はが1%増加した場合のへの効果と解釈できます。 (23)式のの解釈は、『傘の価格が1円上昇した時の傘の販売本数に与える効果』ですが、以下の(24)式のは『傘の価格が1%上昇した時の傘の販売本数に与える効果』と解釈できます。
(24) |
標本として使うデータの中に地域、時点などのグループがあれば、ダミー変数を用いてグループの違いを回帰分析に入れることができます。グループAとグループBで切片が異なる可能性のある場合は、以下の(25)式のように定数項ダミーを説明変数に加えます。
(25) |
定数項ダミーは基準のグループAなら0、グループBなら1を入力した列です。Excelの回帰分析にこの列を説明変数として加えることで、定数項ダミーを加えた回帰分析となります。 (25)式においてグループAの切片の推定値はですが、グループBの切片の推定値はとなります。
また、グループによって説明変数の効果が異なる可能性を考え、以下の(26)式のように係数ダミーを設定することもできます。
(26) |
(26)式の係数ダミーは(25)の定数項ダミーと同じ値が入り、【降水量】の推定係数は基準のグループAには、グループBにはとなります。しかし、(26)式の形では、Excelで回帰分析を実行できません。Excelで回帰分析が実行できるようにするには、以下の(27)式のように【降水量】をグループ毎に分け、該当グループ以外を0とした新しい説明変数の列を作ります。
(27) |
(27)式において、【降水量】の推定係数はグループAには、グループBにはとなります。と変換すると、(26)式と(27)式の回帰分析の結果は同じになります。
グループA、グループB、グループC、・・・と3グループ以上ある場合にも同様の手順で定数項ダミー、係数ダミーを指定ができます。 また、地域と時点といった形で複数の種類のグループに別々のダミー変数を設定することもできます。
多重回帰であっても、種類目の説明変数と被説明変数の散布図を見ることで、両者の関係に見当をつけることができます。また、候補の式の形で回帰分析を行い、得られた当てはめ値と推定エラーの散布図を用いて確認できます。例えば、下の図では切片と一乗項だけの式では良い近似とはならないことが分かります。また、結果的に得られたとの散布図を描けば、の大きさによってが偏っていることが分かります。
近似の度合いを高める簡単な方法は、の二乗項やの交差項を説明変数に追加することです。下の図では、上の図にの二乗項と定数項ダミーを追加することで下の図より現実の関係に近くなっています。しかし、複雑な関係も許容する式の形が望ましい反面、単純化して分かりやすく表すことも重要なのでバランスをとる必要があります。
複数の説明変数を用いる多重回帰では、他の説明変数の効果を調整した上での各説明変数の効果を推定しています。(23)式は【降水量、風速、傘の価格】を用いた多重回帰ですが、感覚的に一番効果が大きそうな説明変数は【降水量】です。しかし、(23)式における【降水量】のデータがなかったり、説明変数であることに気がつかない場合があります。また、雨が降る時には風が強いことが多く、(23)式から【降水量】を抜いて回帰分析を行うと【風速】が大きな効果を持っているという推定結果が得られそうです。しかし、仮に『風が強いだけの日』があっても【傘の販売本数】は伸びそうにありません。必要な説明変数を省くと、他の説明変数の推定値にも悪影響があります。『必要な説明変数が全て回帰分析の式に入っているか?』という注意点があります。
この注意点に対しては、必要な説明変数をよく考える必要があります。また、説明変数を入れるか省くかを迷ったら、入れる方が無難です。 一般的に関係のある説明変数を省くと、他の説明変数の推定係数に悪影響があります。一方、無関係の説明変数を入れると推定精度は落ちますが、現実に対応しない推定係数になる傾向はありません。
(23)式では【降水量、風速、傘の価格】が【傘の販売本数】に与える効果を調べています。しかし、『傘がよく売れる時期や場所では、傘屋が傘の値上げをして利益を出す』という逆方向の効果があるかもしれません。傘の価格は安い方がよく売れるなら(23)式のはマイナスになるはずですが、逆方向の効果があればは0に近づき、プラスになることも考えられます。また、逆方向の効果の極端な例として【降水量】を被説明変数にして【傘の販売本数】を説明変数にすることが考えられます。理屈の上では【傘の販売本数】が伸びても、雨は降らないことが分かります。しかし、機械的な回帰分析では『傘が売れれば、雨が降る』という結果になります。これらの結果を単純に解釈すると『傘を多く売るために値上げをしよう』や『雨を降らせるために傘を買おう』という話になりかねません。『説明変数⇒被説明変数の効果の方向は正しいか?』という注意点があります。
この注意点に対しては、効果の方向や経路をよく考える必要があります。また、【降水量、風速】は、『傘屋にはどうにもならないもの』です。こうした説明変数なら『逆方向の効果があるかもしれない』という問題はありません。 しかし、理系の実験と違い、経済などのデータは『景気と失業の関係』『企業の業績と広告費の関係』のように因果が分からないこと、両方向が考えられるケースが多々あります。こうしたケースでは、時間的な前後関係を利用することで『雨が降ってから、傘が売れる』のか『傘が売れてから、雨が降る』のかを識別する場合があります。この場合は、過去の説明変数が将来の被説明変数に影響を与えるという枠組みで回帰分析を行います。また、操作変数法によって対処できる場合もあるので、関心のある方は計量経済学の本を参照してください。
Excelの回帰分析の結果は、推定エラーの背後にある真のエラーは、以下の(28)式の平均0、分散の正規分布から発生することを仮定して導出しています。
(28) |
(28)式の仮定では、どの標本に関してもエラーは一定の分散の正規分布から発生します。しかし、【降水量】の多い日はエラーのばらつきが大きいなど、説明変数の大きさによってエラーの分散が異なる場合があります。こうした場合は、最小二乗法よりも精度が高い推定方法が存在します。また、最小二乗法の[推定係数の標準誤差]や[帰無仮説の検定結果]は不正確になります。『エラーは一定の分散の正規分布から発生するか?』という注意点があります。
実証分析の場合、真のエラーは回帰分析の後でも分かりません。 このため、推定エラーから真のエラーを推測するしかありません。この確認として、推定エラーと主な説明変数や当てはめ値との散布図を描きます。 散布図が左下図のようになっていれば、エラーのばらつきは説明変数から影響を受けない均一分散と考えられます。一方、中央下図のようであれば、説明変数が増加するとエラーのばらつきが増える不均一分散であると考えられます。もし、右下図のようになっていれば、6.1 回帰分析の式の形や6.2 必要な説明変数の問題であると考えられます。
この注意点に対する対処として、エラーの構造を指定する一般化最小二乗法やグループによってエラーの分散が異なるというランダム効果モデルを使うこともあります。 しかし、不均一分散がある場合に、通常の回帰分析(最小二乗法)を行っても深刻な問題は起きません。通常の回帰分析でも、現実に対応した推定係数を得ることができます。
快晴の日は傘屋が臨時休業してデータが抜けている可能性があります。また、傘の売れ行きが悪い場合、傘屋は回答を拒否するかもしれません。傘屋の状態や判断を通じた休業や回答拒否がある場合、回帰分析の結果は現実に対応しなくなる可能性があります。潜在データを含めた左下図の回帰線は、観測できるデータのみの右下図の回帰線とはっきりと異なっています。『回答やデータ作成に偏りのある抜け落ちがないか?』という注意点があります。
多くのケースでは、既に存在するデータを使うしかありません。回答やデータの作成プロセスで標本が偏る可能性がないかを考え、必要に応じて記述します。また、Heckit(ヘックマンの二段階推定)などのサンプルセレクションに対応した推定方法があります。ただ、サンプルセレクションに対応した推定方法は休業、無回答といった『この標本のデータが得られていない』という情報が必要です。
【傘の販売本数】が10本単位であったり、【降水量】が県単位の調査であったりとデータが不正確になっている場合があります。観測段階での測定誤差、データ公表段階での四捨五入や代表値、回帰分析の段階での代理変数など、複数の要因から回帰分析に用いるデータは不正確になります。『データは正確か?』という注意点があります。
被説明変数が不正確であれば、推定エラーが大きくなり、推定精度が落ちます。しかし、現実と異なる推定係数になる傾向はありません。一方で説明変数が不正確であれば、右下図のように現実の関係を離れて推定係数が小さくなる傾向があります。説明変数が不正確である方がより深刻ですが、いずれの変数もできるだけ正確なデータを使ってください。