icon
icon

Pythonを利用してロジスティック回帰分析をする方法を現役エンジニアが解説【初心者向け】

初心者向けにPythonを利用してロジスティック回帰分析をする方法について現役エンジニアが解説しています。ロジスティック回帰分析とは複数の変数から分析を行い質的確率を予測するものです。scikit-learnライブラリの、データのセット・前処理・機械学習モデル・モデル評価・選択方法を解説します。

テックアカデミーマガジンは受講者数No.1のプログラミングスクール「テックアカデミー」が運営。初心者向けにプロが解説した記事を公開中。現役エンジニアの方はこちらをご覧ください。 ※ アンケートモニター提供元:GMOリサーチ株式会社 調査期間:2021年8月12日~8月16日  調査対象:2020年8月以降にプログラミングスクールを受講した18~80歳の男女1,000名  調査手法:インターネット調査

Pythonを利用してロジスティック回帰分析をする方法について解説します。この記事では、Pythonでデータ解析や機械学習を使うときに必よく使われるscikit-learnと呼ばれるライブラリについて解説し、実際にscikit-learnを使った回帰分析を実践します。ぜひ参考にしてみてください。

そもそもPythonについてよく分からないという方は、Pythonとは何なのか解説した記事を読むとさらに理解が深まります。

 

なお本記事は、TechAcademyのオンラインブートキャンプPython講座の内容をもとに紹介しています。

 

田島悠介

今回は、Pythonに関する内容だね!

大石ゆかり

どういう内容でしょうか?

田島悠介

Pythonを利用してロジスティック回帰分析をする方法について詳しく説明していくね!

大石ゆかり

お願いします!

 

scikit-learnライブラリとは?

“scikit-learn”は「サイキット・ラーン」という呼ばれるPythonのデータ解析と機械学習に特化したライブラリです。

このライブラリを使うことでPythonがわかる人なら、誰でも比較的簡単に数行で機械学習を実践することができます。

scikit-learnライブラリはNumpやScipyといった行列計算に必要なライブラリ、matplotlibといったグラフなどのデータの可視化に便利なライブラリが組み込まれています。

また、scikit-learnのチートシートを使えば、使いたいデータに合った機械学習がどれに当たるのか、専門的な知識がなくてもすぐにわかるようになっています。

scikit-learnによるロジスティック回帰分析。データのセット・前処理・機械学習モデル・モデル評価・選択方法

scikit-learnの記事を読んでみると、scikit-learnについてさらによく分かると思うので、詳しく知りたい方は参照してみてください。

scikit-learnモジュールのインポート

scikit-learnを使うには、まずは、Anacondaと呼ばれるPythonのパッケージ管理ツールを使ってインストールするか、pipコマンドを使ってscikit-learnをインストールしてください。

Anacondaを使う場合は、コマンドプロンプト(Windows)、もしくは、ターミナル(Mac)で

conda install scikit-learn

を実行します、

pipを使う場合は、condaの部分をpipに変えて、

pip install scikit-learn

を実行すれば、scikit-learnのインストールができます。

コマンドを実行して、

Successfully installed scikit-learn ...

と表示されれば大丈夫です。. . . の部分はscikit-learnのバージョンが表示されます。

あとは、Pythonのコードで、scikit-kearnを

import sklearn

でインポートすればPythonでscikit-learnを使うことができます。

[PR] Pythonで挫折しない学習方法を動画で公開中

scikit-learnモジュールの使い方

scikit-learnにはデータ解析に便利なツールが数多く用意されています。

主に、

  1. データセット
  2. データの前処理
  3. 機械学習モデル
  4. モデル評価、選択

のための各ツールが提供されています。

機械学習を試したい場合には、scikit-learnを使えば、データセットのダウンロードから性能の評価まで一貫して行なうことができるので、非常に便利です。

データセットには、ボストンの住宅価格、アイリス(アヤメ)の花のデータ、手書き文字など様々なものがあります。データの前処理には、標準化、正規化などといったデータの加工に必要なツールがあります。

そして、機械学習モデルには、「教師あり学習」と「教師なし学習」と呼ばれるの2種類のモデルがあり、チートシートを参照して複数のモデルの中から必要なモデルを選ぶことができます。

 

scikit-learnモジュールを利用してロジスティック回帰分析してみよう

それでは、実際にscikit-learnを使ってみましょう。

ここからは、Jupyterノートブックを用いることを想定しています。ですが、他の方法でも実践できるので使いたい環境で行なってください。

今回は、ロジスティック回帰と呼ばれる機械学習を行います。ロジスティック回帰は教師あり学習に属するモデルで、クラス分類や確率の予測などに使われる分析手法です。

ロジスティック回帰についての詳細な説明は省きますが、興味のある方はぜひ調べてみてください。Qiitaのこちらの記事などがオススメです。

ではコードを書いていきましょう。まずは、scikit-learnと必要なツールをインポートします。

#必要なツールのインポート
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score
import pandas as pd

load_irisはアイリスデータセットをダウンロードするのに使います。

アイリスというのは、花の名前ですが、より細かい種類に別れています。このアイリスの種類を予測するのが今回の目標です。

  • train_test_split:データセットを訓練用とテスト用に分けるときに使います
  • StandardScaler:データの前処理手法の一つである標準化で用います
  • LogisticRegression:今回学習に使うロジスティック回帰というモデルです
  • accuracy_score:モデルの性能を評価するとき正解率を計算することに使います
1時間でできる無料体験!

他にもここでは、pandasというライブラリをインポートしています。Pandasを用いることでデータを扱いやすくなっています。

続いて、

iris_data = load_iris()
iris_df = pd.DataFrame(iris_data.data, columns=iris_data.feature_names)
iris_df["target"] = iris_data.target

とします。

ここでは、アイリスデータセットを読み込み、pandasでデータフレームというデータ型に変換し、データフレームの”target”列に、予測する値となるラベルとして、花の種類を追加しています。

次に、

#データセットをテスト用と訓練用に分ける
x_train, x_test, y_train, y_test = train_test_split(
    iris_df.iloc[:, 0:4],
    iris_df.iloc[:, 4],
    test_size = 0.3,
    random_state=1
)

#データを標準化
scl = StandardScaler()
scl.fit(x_train) #学習用データで標準化
x_train_std = scl.transform(x_train)
x_test_std = scl.transform(x_test)

として、データの分離と前処理を行ないます。あとは、実際に学習を行って性能を評価すれば良いだけです。

clf = LogisticRegression(C=1e5)
clf.fit(X_train_std, Y_train)#訓練データから学習を行う
print( "正解率:{:.2f}%".format(accuracy_score(Y_test, clf.predict(x_test_std)) * 100 ))

fit()というメソッドは訓練用データから学習するときに用います。print()の部分で、テストデータに対する正解率を計算して表示しています。

今回は、95%ほどの正解率でした。

このように少ないコードで簡単に機械学習が行えるのが、scikit-learnです。以上、Pythonのライブラリであるscikit-learnついて解説しました。

ドキュメントなどを読めば、詳細まで知ることができます。一度目を通しておくと、後々役に立つと思います。

関連記事:徹底解説!scikit-learnを使った教師あり・なし学習とは

関連記事:機械学習のライブラリ!scikit-learnとは【初心者向け】

コラム

コスパとタイパ、両方結果的に良くなる良くなる学び方とは?

「スクールは高いし時間も縛られて効率が悪い」と考える方は多いと思います。
もちろん、時間も費用もかかることは間違いありません。
ただ 結果的に無駄な学びにお金も時間もかける方がリスクが高いという考えもあります。

コスパ・タイパ最適化の参考として、 テックアカデミー卒業生がスクールを選んだ理由 をご紹介します。

  • ・困ったときに、質問や相談できる相手がいるため挫折しなかった
  • ・プロとして必要なスキルのみを深く学べたので無駄がなかった
  • ・副業案件の提供と納品までのサポートがあったので目的を達成できた

安価・短期間で広く浅く学んでも意味がありません。 本当に自分の目的が達成できるか、それが重要です。
自分にどのスキルや学び方が合っているか、どんな学習方法かなど、お気軽に 無料相談 に参加してみませんか?

カウンセラー・現役のプロへ、何でも気軽に無料相談可能。 30分か60分お好きな時間が選べて、かつ3回まで すべて無料で ご利用できます。
無理な勧誘は一切ない ので、お気軽にご参加ください。

今なら相談した方限定の割引・参加特典付き! 無料相談はこちら

監修してくれたメンター

メンターOS

AIプログラミングを使って開発を行う。

プログラミング歴は約3年でPythonは割と得意。好きな物理理論は一般相対性理論で動物も好き。

 

大石ゆかり

内容分かりやすくて良かったです!

田島悠介

ゆかりちゃんも分からないことがあったら質問してね!

大石ゆかり

分かりました。ありがとうございます!

 

TechAcademyでは、初心者でもPythonを使った人工知能(AI)や機械学習の基礎を習得できるオンラインブートキャンプPython講座を開催しています。

挫折しない学習方法を知れる説明動画や、現役エンジニアとのビデオ通話とチャットサポート、学習用カリキュラムを体験できる無料体験も実施しているので、ぜひ参加してみてください。

初心者・未経験でもできる。まずはテックアカデミーに相談しよう

プログラミングを独学で学習していて、このように感じた経験はないでしょうか?

  • ・調べてもほしい情報が見つからない
  • ・独学のスキルが実際の業務で通用するのか不安
  • ・目標への学習プランがわからず、迷子になりそう

テックアカデミーでは、このような 学習に不安を抱えている方へ、マンツーマンで相談できる機会を無料で提供 しています。
30分間、オンラインでどんなことでも質問し放題です。

「受けてよかった」と感じていただけるよう カウンセラーやエンジニア・デザイナー があなたの相談に真摯に向き合います。

「自分に合っているか診断してほしい」
「漠然としているが話を聞いてみたい」

こんなささいな悩みでも大丈夫です。

無理な勧誘は一切ありません ので、まずはお気軽にご参加ください。
※体験用のカリキュラムも無料で配布いたします。(1週間限定)

今なら参加者限定の割引特典付き! 無料相談を予約する