Pythonを利用してロジスティック回帰分析をする方法を現役エンジニアが解説【初心者向け】

初心者向けにPythonを利用してロジスティック回帰分析をする方法について現役エンジニアが解説しています。ロジスティック回帰分析とは複数の変数から分析を行い質的確率を予測するものです。scikit-learnライブラリの、データのセット・前処理・機械学習モデル・モデル評価・選択方法を解説します。

TechAcademyマガジンはオンラインのプログラミングスクールTechAcademy [テックアカデミー]が運営。初心者向けに解説した記事が4,000以上あります。現役エンジニアの方はこちらをご覧ください。

Pythonを利用してロジスティック回帰分析をする方法について解説します。この記事では、Pythonでデータ解析や機械学習を使うときに必よく使われるscikit-learnと呼ばれるライブラリについて解説し、実際にscikit-learnを使った回帰分析を実践します。ぜひ参考にしてみてください。

そもそもPythonについてよく分からないという方は、Pythonとは何なのか解説した記事を読むとさらに理解が深まります。

 

なお本記事は、TechAcademyのオンラインブートキャンプPython講座の内容をもとに紹介しています。

 

田島悠介

今回は、Pythonに関する内容だね!

大石ゆかり

どういう内容でしょうか?

田島悠介

Pythonを利用してロジスティック回帰分析をする方法について詳しく説明していくね!

大石ゆかり

お願いします!

 

scikit-learnライブラリとは?

“scikit-learn”は「サイキット・ラーン」という呼ばれるPythonのデータ解析と機械学習に特化したライブラリです。

このライブラリを使うことでPythonがわかる人なら、誰でも比較的簡単に数行で機械学習を実践することができます。

scikit-learnライブラリはNumpやScipyといった行列計算に必要なライブラリ、matplotlibといったグラフなどのデータの可視化に便利なライブラリが組み込まれています。

また、scikit-learnのチートシートを使えば、使いたいデータに合った機械学習がどれに当たるのか、専門的な知識がなくてもすぐにわかるようになっています。

scikit-learnによるロジスティック回帰分析。データのセット・前処理・機械学習モデル・モデル評価・選択方法

scikit-learnの記事を読んでみると、scikit-learnについてさらによく分かると思うので、詳しく知りたい方は参照してみてください。

scikit-learnモジュールのインポート

scikit-learnを使うには、まずは、Anacondaと呼ばれるPythonのパッケージ管理ツールを使ってインストールするか、pipコマンドを使ってscikit-learnをインストールしてください。

Anacondaを使う場合は、コマンドプロンプト(Windows)、もしくは、ターミナル(Mac)で

conda install scikit-learn

を実行します、

pipを使う場合は、condaの部分をpipに変えて、

pip install scikit-learn

を実行すれば、scikit-learnのインストールができます。

コマンドを実行して、

Successfully installed scikit-learn ...

と表示されれば大丈夫です。. . . の部分はscikit-learnのバージョンが表示されます。

あとは、Pythonのコードで、scikit-kearnを

import sklearn

でインポートすればPythonでscikit-learnを使うことができます。

[PR] Pythonで挫折しない学習方法を動画で公開中

scikit-learnモジュールの使い方

scikit-learnにはデータ解析に便利なツールが数多く用意されています。

主に、

  1. データセット
  2. データの前処理
  3. 機械学習モデル
  4. モデル評価、選択

のための各ツールが提供されています。

機械学習を試したい場合には、scikit-learnを使えば、データセットのダウンロードから性能の評価まで一貫して行なうことができるので、非常に便利です。

データセットには、ボストンの住宅価格、アイリス(アヤメ)の花のデータ、手書き文字など様々なものがあります。データの前処理には、標準化、正規化などといったデータの加工に必要なツールがあります。

そして、機械学習モデルには、「教師あり学習」と「教師なし学習」と呼ばれるの2種類のモデルがあり、チートシートを参照して複数のモデルの中から必要なモデルを選ぶことができます。

 

scikit-learnモジュールを利用してロジスティック回帰分析してみよう

それでは、実際にscikit-learnを使ってみましょう。

ここからは、Jupyterノートブックを用いることを想定しています。ですが、他の方法でも実践できるので使いたい環境で行なってください。

今回は、ロジスティック回帰と呼ばれる機械学習を行います。ロジスティック回帰は教師あり学習に属するモデルで、クラス分類や確率の予測などに使われる分析手法です。

ロジスティック回帰についての詳細な説明は省きますが、興味のある方はぜひ調べてみてください。Qiitaのこちらの記事などがオススメです。

ではコードを書いていきましょう。まずは、scikit-learnと必要なツールをインポートします。

#必要なツールのインポート
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score
import pandas as pd

load_irisはアイリスデータセットをダウンロードするのに使います。

アイリスというのは、花の名前ですが、より細かい種類に別れています。このアイリスの種類を予測するのが今回の目標です。

  • train_test_split:データセットを訓練用とテスト用に分けるときに使います
  • StandardScaler:データの前処理手法の一つである標準化で用います
  • LogisticRegression:今回学習に使うロジスティック回帰というモデルです
  • accuracy_score:モデルの性能を評価するとき正解率を計算することに使います

他にもここでは、pandasというライブラリをインポートしています。Pandasを用いることでデータを扱いやすくなっています。

続いて、

iris_data = load_iris()
iris_df = pd.DataFrame(iris_data.data, columns=iris_data.feature_names)
iris_df["target"] = iris_data.target

とします。

ここでは、アイリスデータセットを読み込み、pandasでデータフレームというデータ型に変換し、データフレームの”target”列に、予測する値となるラベルとして、花の種類を追加しています。

次に、

#データセットをテスト用と訓練用に分ける
x_train, x_test, y_train, y_test = train_test_split(
    iris_df.iloc[:, 0:4],
    iris_df.iloc[:, 4],
    test_size = 0.3,
    random_state=1
)

#データを標準化
scl = StandardScaler()
scl.fit(x_train) #学習用データで標準化
x_train_std = scl.transform(x_train)
x_test_std = scl.transform(x_test)

として、データの分離と前処理を行ないます。あとは、実際に学習を行って性能を評価すれば良いだけです。

clf = LogisticRegression(C=1e5)
clf.fit(X_train_std, Y_train)#訓練データから学習を行う
print( "正解率:{:.2f}%".format(accuracy_score(Y_test, clf.predict(x_test_std)) * 100 ))

fit()というメソッドは訓練用データから学習するときに用います。print()の部分で、テストデータに対する正解率を計算して表示しています。

今回は、95%ほどの正解率でした。

このように少ないコードで簡単に機械学習が行えるのが、scikit-learnです。以上、Pythonのライブラリであるscikit-learnついて解説しました。

ドキュメントなどを読めば、詳細まで知ることができます。一度目を通しておくと、後々役に立つと思います。

関連記事:徹底解説!scikit-learnを使った教師あり・なし学習とは

関連記事:機械学習のライブラリ!scikit-learnとは【初心者向け】

監修してくれたメンター

小倉翔悟 (おぐらしょうご)

AIプログラミングを使って開発を行う大学3年生。

プログラミング歴は約3年でPythonは割と得意。好きな物理理論は一般相対性理論で動物も好き。

 

大石ゆかり

内容分かりやすくて良かったです!

田島悠介

ゆかりちゃんも分からないことがあったら質問してね!

大石ゆかり

分かりました。ありがとうございます!

 

TechAcademyでは、初心者でも最短4週間でPythonを使った人工知能(AI)や機械学習の基礎を習得できるオンラインブートキャンプPython講座を開催しています。

挫折しない学習方法を知れる説明動画や、現役エンジニアとのビデオ通話とチャットサポート、学習用カリキュラムを体験できる無料体験も実施しているので、ぜひ参加してみてください。