Excel で重回帰を使用する方法

Excel は、1 つの独立変数と従属変数の間の単純な関係を扱っている場合でも、考慮すべき複数の独立変数がある場合でも、データ分析のための強力なツールです。 Excel で多変量解析を (重回帰の形式で) 実行し、結果を解釈する方法を学習することは、処理するデータが複雑な場合に不可欠です。幸いなことに、Excel はこれらのタスクを処理するように適切に設定されており、1 つの関数がどのように機能するかを学ぶだけで、データの意味を理解し始めることができます。
多重回帰とは?
重回帰は、問題の変数がそれぞれでどのように変化するかを説明する方程式を見つけることにより、複数の独立変数を単一の従属変数に関連付ける方法です。より基本的だが同様のツールは線形回帰です。これは、肥満などの 1 つの独立変数と、がんのリスクなどの従属変数との関係を調査することを目的としていますが、これほど簡単なことはめったにありません。例を続けると、1 日あたりの喫煙本数は、飲酒量と同様に、がんのリスクにも関連しています。個人のがんリスクを確実に予測するには、これらすべて (およびそれ以上) の要因を考慮に入れる必要があります。
重回帰に使用される式の一般的な形式は次のとおりです。
Y ^ =a + b x + b x + b x …
だから、Y ^ は観察の期待値、b などは x 間の直線関係の傾きを表します そしてY ^、および x などは、分析に含まれる変数です。 a y のポイントを教えてくれます -インターセプト。重回帰では、係数の値 (b など)、期待値 Y の差を最小化します ^ と観測値 Y 、モデルとデータの間で最適なフィットを提供します。
重回帰から何がわかるか?
重回帰は、多数の変数と結果の間の関連性に数値を配置するため、予測、結果に対するさまざまな変数の相対的な寄与の推定、または最も関連性の高い変数の選択などの他のいくつかの目的に使用できます。数学的モデルで使用します。
たとえば、特定の都市の家の価格に関するデータ (従属変数) と、プールがあるかどうか、占有する平方フィート数、ベッドルームの数、バスルームの数などの情報があるとします。 、そしてそれが持っているガレージの数。重回帰を使用すると、これらの各要因が家の価格にどのように関連しているかを調べることができるため、それらが価格にどのように関連しているかを調べた後、方程式を使用して、これらに基づいて家の価格を予測できます。
このタイプの回帰分析を Excel で使用して、他のすべての変数が一定のままである場合、特定の要因 (家にプールがあるかどうかなど) が従属変数 (住宅価格) にどのように影響するかを調べることもできます。係数 (「偏回帰係数」と呼ばれます) を標準偏回帰係数に変換すると、標準偏差 Y の数を表します。 対応する変数を 1 標準偏差だけ変更した場合、式は結果を決定する上でどの要因がより重要かを示します。
Excel で重回帰分析を行う方法
データ分析からアクセスできる組み込み関数を使用して、Excel で多変量回帰を実行できます。 データの下のツール タブと分析 グループ。 [データ分析] をクリックします 回帰のオプションを見つけます ポップアップ ウィンドウで強調表示し、[OK] をクリックします。 . セルを選択をクリックします 入力 Y 範囲の横にあるアイコン フィールドをクリックし、従属変数の結果を含む列を選択します。次に、Input X Range についても同じことを行います フィールドですが、独立変数の複数の列を選択します。これらの列は互いに隣接している必要があるため、そうでない場合は、回帰を生成する前に移動する必要があります。
回帰ウィンドウには、ニーズに合わせてプロセスを調整するために選択できるさまざまな追加オプションがあります。たとえば、必要に応じて 95% 以外の信頼水準を設定し、残差を表示することを選択して、ワークブック内で出力を配置する場所を指定できます。この最後のオプションは自動的に New Worksheet Ply に設定されます。 結果は新しいシートに表示されますが、必要に応じてこのオプションまたはその他のオプションを変更できます。さらに、ラベルを確認してください 独立変数の列の上部にラベルがあり、これらが出力に表示される場合はボックスに入れます。
[OK] をクリックします Excel で回帰分析を生成し、新しいシートに移動します。
Excel からの回帰出力
Excel で重回帰を実行した後に表示される出力には、回帰統計、ANOVA、推定回帰線の詳細の 3 つの主要なセクションがあります。回帰統計には、-1 から +1 までの相関の方向と強さを示す重相関係数 ("Multiple R") が含まれます。決定係数「R 2 乗」は、従属変数の変動の何パーセント (小数として) が独立変数によって説明されるかを示します。 「調整済み R 2 乗」は説明力を示しますが、解釈は簡単ではありません。「標準誤差」は、観測結果と回帰直線との間の変動の尺度を示します。
ANOVA セクションには、回帰線によって説明される変動量に関する統計情報が含まれています。「SS 回帰」は線によって説明される量を示し、「SS 残差」は説明されない量を表します。 「MS」セクションは「Mean Square」を表し、「F Statistic」は有意な結果をテストするために使用される検定統計量であり、「Significance F」セクションは P 値を示します。
最後に、最後のセクションでは、推定された回帰直線の特性、特に係数の値、それらが従属変数に有意に関連しているかどうか、およびそれらに存在する可能性のある変動の量について説明します。正の係数は、問題の変数と従属変数の間の正の関係を示しているため、一方が増加すると、もう一方も増加します。負の値は、独立変数が増加するにつれて従属変数が減少することを意味します。したがって、住宅価格の重回帰の「平方フィート」係数が 300 である場合、これは、追加の平方フィートのスペースが家のコストを平均で 300 ドル増加させることを意味します。
多重回帰の仮定と制限
重回帰は単なるツールであり、ほとんどのツールと同様に、特定の状況でのみ使用でき、実行できないことがあることを覚えておくことが重要です。
最も重要な制限の 1 つは、結果に基づいて因果関係を結論付けることが難しいことです。例として、火災による損害と関連する可能性のある多くの要因を含む重回帰がある場合、存在する消防士の数と損害の間に有意な関連性が見つかる可能性があります。これは、消防士が引き起こしたという意味ではありません モデルに含まれていない火災の規模などの別の要因が、これらの観察結果の両方を説明できるためです。
このタイプの Excel での多変量解析の 2 つの重要な仮定は、線形性と正規性の仮定です。従属変数と独立変数の間の線形関係を想定しているため、分析を実行する前に、これが有効である可能性が高いことを確認する必要があります。各変数間の関係を個別に確認して確認できますが、これは完璧な戦略ではありません。同様に、検定は変数が正規分布していることを前提としているため、検定を実施する前にそれぞれの結果の正規性を確認する必要があります。