ロジスティック回帰分析とは?用途、計算方法をわかりやすく解説!

2021年08月13日

ロジスティック回帰分析とは?用途、計算方法をわかりやすく解説!

ロジスティック回帰分析は、いくつかの要因(説明変数)から「2値の結果(目的変数)」が起こる確率を説明・予測することができる統計手法で、多変量解析の手法の1つです。

マーケティングでもよく使われています。

◆ロジスティック回帰分析の利用シーン

  • 顧客がどのような理由で商品を購入するのか可能性を分析する
  • ある病気になるリスクを、生活習慣などの複数の要因から予測する
  • どのチャネルの広告配信が最も効果的かを調べる

この記事では、ロジスティック回帰分析の意味、他の回帰分析との違い、用途、計算方法、オッズの用い方などを分かりやすく解説していきたいと思います。

ロジスティック回帰分析とは?

この学生が合格する確率は?

ロジスティック回帰分析は、いくつかの要因(説明変数)から「2値の結果(目的変数)」が起こる確率を説明・予測することができる統計手法です。
2値とは、試験の合格/不合格のように答えが2つしかない値のことを言います。

具体例を見ていきましょう。
たとえば、1日の勉強時間・部活動の有無・1日のスマホ利用時間のそれぞれの要因が、大学入試の合否結果にどのような影響を及ぼしているかを調べ、ある学生の合格率を予測したいとします。

まず学生を16人集めてアンケートをとると、以下のようなデータが得られました。

大学入試の合否

※データはダミーです

この学生16人のデータを元に回帰分析を行ったところ、以下のようになりました。

学生16人のデータをもとに回帰分析

その結果、合否とそれぞれの要因は以下の関係にあることが分かりました。

合否とそれぞれの要因

 

勉強時間が0.488、部活動の有無が-.0666、スマホ利用時間が-.0215とあるのは、回帰変数で、それぞれの要因が合格率に及ぼす影響の大きさです。

このとき「入試の合否」を目的変数、「1日の勉強時間」と「部活動を行っているかどうか」「1日のスマホ利用時間」を説明変数と呼びます。
切片は、要因系データが0であったときの結果系データの値のことです。

 


説明変数、回帰変数、目的変数

回帰変数は先程の16人の学生のデータから導き出された数値です。
この回帰変数が分かったことによって、新しく17番目の学生の合格/不合格の確率を予測することができます。

「勉強時間が6時間、部活動に参加しておらず、スマホ利用時間は1日2時間の学生の合格率」を考えてみましょう。

ロジスティック回帰分析の式にそれぞれの数字を当てはめてみます。

合格率は?

eはネイピア数(自然対数の底)を表しており、約2.718です。

16人の学生のデータによれば、回帰変数はそれぞれ
β0=-1.768(切片)
β1=0.488(勉強時間)
β2=-0.666(部活動の有無)
β3=-0.215(スマホ利用時間)
でした。

今回知りたい学生のケースは、
x1=6(勉強時間)
x2=0(部活動の有無)
x3=2(スマホ利用時間)
ですので、代入して計算すると、「勉強時間が6時間、部活動に参加しておらず、スマホ利用時間は1日2時間の学生の合格率は約86%」ということが分かりました。

 

この学生が合格する確率は?

今回求めた合格率は「判別スコア」と呼ばれます。
ちなみに、他の学生の判別スコアは以下のようになっていました。

大学入試の合否

ロジスティック分析は、このようにいくつかの要因から2値の結果が起こる確率を説明・予測するのに役立ちます。

オッズ比を見るー説明変数の影響度

さて、ロジスティック回帰分析では各説明変数がどのぐらい目的変数に影響を及ぼしているかを調べることもできます。

今回の例で言えば「勉強時間を増やすことが合格率を上げやすいのか?」「スマホ利用時間を減らすほうが効果的なのか?」「部活を辞めるべきか?」といったことを考える材料になります。

ロジスティック回帰分析で説明変数と目的変数の関係を見るには、オッズを利用します。オッズは競馬などでも聞いたことがあるかもしれません。確率を確率論で示す数値であり、「ある事象が起こる確率P/ある事象が起こらない確率P」で定義されます。

割合と似たようなものですが、次のような点で違いがあります。

割合
割合=任意の数/全体(0~1)

オッズ
オッズ=起こる確率/起こらない確率(0~∞)

※()内は値の取りうる範囲。

オッズ

例えば、4回に1回の確率(0.25または25%)で起きる事象は、オッズで表すと
0.25 / (1 - 0.25) =0.25 / 0.75 = 0.333…
となります。

オッズが低いほど、事象が起きたときの儲けが大きくなります。
具体的にはオッズ0.333で1を賭けた場合、当たりならば
元金1+掛け金1 / 0.333 =4
を受け取ることが出来ます。1が4になったので、すなわち4倍です。

さて、このオッズを2つの群で比較して示す尺度がオッズ比です。

オッズ比

 

ここで、先程の学生16人の結果表から、合格した学生と不合格の学生のオッズとオッズ比を見てみましょう。

◆説明変数のオッズとオッズ比

  オッズ オッズ比
勉強時間
(6時間以上)
①6時間以上:9/4(2.25)
②5時間以下:1/2(0.5)
4.5
部活動 ①有:4/3(1.33)
②無:6/3(2)
0.667
スマホ利用時間
(3時間以上)
①3時間以上:7/4(1.75)
②2時間以下:3/2(1.5)
1.167

これをどう見たらよいでしょうか?

 

オッズ比が1に近いほど事象の起こりやすさが両群で同じということになります。
オッズ比が1より大きい場合は事象が第1群(①)で起こりやすく、1より小さい場合は第2群(②)で起こりやすいということです。すなわち、今回の例では、

  • 勉強時間が6時間以上であるほど合格しやすい
  • 部活動はしていないほうがやや合格しやすい
  • スマホ利用時間はさほど合否に影響がなさそう

ということが言えそうです。

ただし、今回の「勉強時間」や「スマホ利用時間」のように説明変数が数量データになっている場合は、閾値(しきいち)を用いた適切な2値データへの変換が必要になります。
今回、勉強時間は6時間、スマホ利用時間は3時間を閾値としましたが、これを調整することによってオッズ比は変化しますので注意が必要です。

重回帰分析とロジスティック回帰分析の違い

ところで、回帰分析といえば重回帰分析が有名です。
重回帰分析とロジスティック回帰分析の違いは何でしょうか?

簡単に言えば、目的変数が質的か量的かです。

ロジスティック回帰分析

 

重回帰分析

重回帰分析とは、複数の説明変数と目的変数(数量)のデータがあるとき、そのデータの傾向を表す直線の式を求めるものです。
そのことにより、任意の値に対する答えを出したり、各説明変数が目的変数に与えている影響度を測定するというものです。

一方、ロジスティック回帰分析もデータが持つ傾向を式で表すという、重回帰分析と同様の目的を持ちますが、目的変数は2値の値でなければなりません。

基本的な違いは目的変数だけですが、2値のデータを扱うため確率に変換したり直線を表す式に直したりと、分析を行う上でいくつかの工程を踏む点で複雑になっています。

ちなみに、重回帰分析の手法で2値の目的変数を持つデータを分析できないのでしょうか?
結論から言えば、適しません。
なぜなら、2値のデータは0か1、もしくは確率に変換しても0~1の値の範囲しかとらないのに、これを目的変数として重回帰分析に当てはめると、結果として出てくる値は0より小さい値や、1より大きい値をとってしまうためです。

目的変数、説明変数

ロジスティック回帰分析における説明変数の3つの注意点

ロジスティック回帰分析の説明変数には、いくつか条件があります。

1.不完全なデータが使用できない

ロジスティック回帰分析には、不完全なデータは使用できません。
想定外のデータがあったり、一部データがなかったりする場合、今回の図1で言うと、部活動の有無に「私は幽霊部員なので0.5」というような回答があると、その学生自体がデータとして使用できなくなります。

2.数量データもしくは2値のデータのみ使用できる

数量データ、もしくは2値のデータを使用するようにしましょう。説明変数は2値のデータでも良いのですが、運動部・文科系の部活・部活に入っていない、というような3つの質的データがある場合には、多項ロジスティック回帰分析となるため今回の式はそのまま利用できません。

3.値に有意差があるデータのみ使用できる

値に有意差が生まれなかったデータは説明変数として使用できません。

エクセルでロジスティック回帰分析を計算する方法

回帰変数はエクセルで計算することができます。
>興味のある方のために、簡潔にやり方を示しておきましょう。

  1. 図のデータをエクセルに反映させ、準備します
  2. EXli関数やSUMliRODUCT関数を利用し、推定値を設定します
  3. LN関数を利用して、データごとの対数尤度を求められるよう設定します
  4. SUM関数を使って対数尤度の設定をします
  5. 偏回帰係数を計算するために、ソルバーというツールを設定し使用します

このような手順を踏むことにより、以下のような結果を導くことができます。

Excelでロジスティック回帰分析を計算

定数項の上にある係数は切片です。以降は説明変数のそれぞれに対応した回帰係数が示されています。

Excelでロジスティック回帰分析を計算2

まとめ

合格率の例を用いて、ロジスティック回帰分析の考え方や使い方を解説しました。
ロジスティック回帰分析は重回帰分析などと使用する目的は同じですが、目的変数が2値のデータであるという点で異なります。

ロジスティック回帰分析はやっていることの意味を掴むのが難しいですが、マーケティングでもよく使われる手法ですので、ざっくりと何をしているのか理解して頂ければと思います。

サービス概要を無料配布中「3分で読めるGMOリサーチのサービス」
3分で読めるGMOリサーチのサービス
最後までお読みいただきありがとうございます。
GMOリサーチはお客様のマーケティング活動を支援しており、さまざまなサービスを提供しております。
  • スピーディーにアンケートデータを収集するには
  • お客様ご自身で好きな時にアンケートを実施する方法
  • どこの誰にどれくらいリーチができるか
などをまとめた資料をお配りしております。
ぜひこの機会にお求めください。
資料請求する