2014年09月24日

統計学事始め:回帰式の妥当性の検証

こんばんは、統計学ド素人のまるごし三平です。
前回はインフレ率と失業率の関係が負の相関になっていることを示しました。

今回はその結果をもう少し詳細してみましょう。Rによる推定が済みましたら、
続いて次のコマンドを利用します。

> par(mfrow=c(2,2))
> plot(result)

これにより得られる結果は↓の通り。
regidf.png

長くなるので詳細は省きますが、簡単に説明すると、

Residuals vs Fitted:横軸が予測値、縦軸が残差で、残差の全体像を概観するために使用。

Normal Q-Q:データの正規性考察するために使用。データが正規分布に従っている場合は、直線上に並ぶ。

Scale-Location:残差の変動状況を考察するために使用。標準化した残差の絶対値の平方根を縦軸にし、予測値を横軸にした散布図。

Residuals vs Leverage:1つのデータがモデルの当てはまりへの影響力を測るために使用。
クックの距離が0.5を超えると影響力あり、1を超えると特異に大きい。
横軸は梃子値で、縦軸は標準化した残差。点線がクックの距離を示す。


特に影響力の強いデータは図中にラベルが与えられます。ここでは、1980、1981、2014年です。
実際にその年と直近のインフレ率のデータを記しておくと、
(1980, 1981,1982, 2013, 2014)=(7.81, 4.91, 2.72, 0.36, 2.80)
ですから、直近と比較して、前者は下落幅が大きく、後者は上昇幅が大きいことがわかります。
特に、Residuals vs Leverageを見ると、1980年は Cook の距離が0.5よりも大きいから、異常値となります
つまり、Cook の距離が大きい場合、その値を除外すると係数が大幅に変わることを示しています。
こういった場合、そのデータを慎重に検証して、
・モデルの推定時に重み付けを小さくする
・異常値を許容可能なしきい値に切り詰める
・影響力の大きいデータを完全に削除する

のいずれかを判断する必要があります。

以前の記事で書きましたが、70年代は石油ショックの影響で物価が高騰し、
80年がピークとなっています。
ですから、石油ショックの問題には触れないという前提のもとで推定を行うかぎり、
1980年のデータは除外してもよさそう
ですね。

経済問題、特にインフレーションという現象の場合、エネルギー問題、財政支出の増大や金融緩和政策等、
原因を把握しやすいということと、フィリップス曲線には、たとえば修正フィリップス曲線のように、
ヴァリアントがいくつかあるので、当てはまりの良いものを探すという手を打つこともできます。

もっとも、それが簡単ならば、誰も苦労はしませんが(笑)。

それでは今日はこの辺で。
最後まで読んでくれた皆様に今日も感謝m(__)m
posted by まるごし三平 at 21:00| Comment(0) | TrackBack(0) | 単回帰 | このブログの読者になる | 更新情報をチェックする
この記事へのコメント
コメントを書く
お名前:

メールアドレス:

ホームページアドレス:

コメント:


この記事へのトラックバック
×

この広告は180日以上新しい記事の投稿がないブログに表示されております。