Pythonでブートストラップ法によりデータ分析する方法を現役エンジニアが解説【初心者向け】

初心者向けにPythonでブートストラップ法によりデータ分析する方法について現役エンジニアが解説しています。ブートストラップ法とは、母集団となるデータの中からランダムにデータを取り出して再標本化を行う手法のことです。標本や再標本化の作成方法、データ分析について解説します。

TechAcademyマガジンは受講者数No.1のオンラインプログラミングスクールTechAcademy [テックアカデミー]が運営。初心者向けに解説した記事を公開中。現役エンジニアの方はこちらをご覧ください。

Pythonでブートストラップ法によりデータ分析する方法について、TechAcademyのメンター(現役エンジニア)が実際のコードを使用して、初心者向けに解説します。

Pythonについてそもそもよく分からないという方は、Pythonとは何なのか解説した記事を読むとさらに理解が深まります。

 

なお本記事は、TechAcademyのオンラインブートキャンプ、Python講座の内容をもとに紹介しています。

 

田島悠介

今回は、Pythonに関する内容だね!

大石ゆかり

どういう内容でしょうか?

田島悠介

Pythonでブートストラップ法によりデータ分析する方法について詳しく説明していくね!

大石ゆかり

お願いします!

 

目次

 

ブートストラップ法とは

ブートストラップ法とは、データ解析手法の一つで母集団となるデータがあるときに母集団の中からランダムにデータを取り出して再標本化を行う手法のことをいいます。

データ解析の手法は数多く存在し、データの特徴に応じて適切な手法を選択し計算します。その中である統計量の母集団のデータのばらつきを求めたいときが出てきます。

データの平均値であれば標準偏差を使って求めることもできますが、解析では平均以外にも様々な統計手法がありデータのばらつきを定量化できる公式ができるわけではありません。

そこで、再標本化では母集団のデータを再標本化させることで、各標本の平均と標準偏差、信頼区間を求めることでデータのばらつきを求めることができるということです。

[PR] Pythonで挫折しない学習方法を動画で公開中

ブートストラップ標本を作成してみよう

それではここからはサンプルのデータをもとにブートストラップ法の手順を順番に見ていきましょう。

まずは使用するデータを用意します。今回はscikit-learnが提供しているサンプルデータの中からアヤメの計測データ(iris)を使って標本を作成します。

scikit-learnをまだインストールしていない場合は、以下のコマンドを実行してインストールします。

pip install scikit-learn

また、データの整形でpandasを使うため、合わせてインストールしておきます。

pip install pandas

今回はこのデータの中からがく片の長さのばらつきを見てみます。データの母集団は以下の通りです。

from sklearn.datasets import load_iris
import pandas as pd
data = load_iris()
df = pd.DataFrame(data.data, columns=data.feature_names)
length = df["sepal length (cm)"]
print(length)

これらを実行すると、以下のようにデータが出力されます。

0 5.1
1 4.9
2 4.7
3 4.6
4 5.0
 ...
145 6.7
146 6.3
147 6.5
148 6.2
149 5.9
Name: sepal length (cm), Length: 150, dtype: float64

 

再標本化をしてみよう

それでは、この母集団に対して再標本化を行います。

再標本化は重複を許して指定されたサイズに標本化を行います。そしてブートストラップ法では、それを指定回数繰り返すことが加えられます。scikit-learnのresampleメソッドを使えば簡単に再標本化を行うことができます。

ここでは、サイズ50のサンプルデータを100回再標本化を行う処理を行います。

from sklearn.utils import resample
for i in range(100):
    resample_data = resample(range(len(length)), length, n_samples = 50)
    print(resample_data)

これでデータの再標本化を行うことができました。

統計量のばらつきを求めよう

それでは、この統計量のばらつきを見てみます。ここでのばらつきとは、統計の分布を指します。統計の分布を実際に可視化させてみたいと思います。

可視化でよく使われるツールがmatplotlibです。そして、matplotlibでプロットしやすくするためにnumpyでベクトルも作成します。

そのため、以下のコマンドを実行しこれらのライブラリをインストールします。

pip install numpy matplotlib

先程の再標本化のコードから、各標本の平均、中央地のデータを格納させると以下のコードになります。

imoprt matplotlib.pyplot as plt
import numpy as np
repeats = 100
vec = np.zeros((2,repeats))

for i in range(repeats):
  x_, y_ = resample(range(len(length)), length, n_samples = 50)
  vec[0, i] = np.mean(y_)
  vec[1, i] = np.median(y_)

それでは、この結果をヒストグラムに出力させてみましょう。

plt.hist([vec[0,:], vec[1,:]], stacked=True)
plt.show()

実行すると以下のような結果が出力されます。

この図の中で青が平均値、オレンジが中央値の分布になります。当然無作為に再標本化を行っているので、一概には言えませんが、この結果からはほとんど正規分布になっていることが伺えます。

まとめ

今回はブートストラップ法の紹介をしてきました。

データを人工的に増やして母集団を増やすという画期的な手法でデータを沢山集めなくてもある程度のデータ量で母集団分布を近似させることができます。

もちろん母集団に近づけるためにはある程度の代表例は必要にはなります。

監修してくれたメンター

メンター三浦

モバイルゲームを運用している会社のエンジニアをしています。趣味でWEB開発やクラウドコンピューティングもやっており、ソフトもハードもなんでもやります。

TechAcademyジュニアではPythonロボティクスコースを担当しています。好きな言語はPython, Node.js。

 

大石ゆかり

内容分かりやすくて良かったです!

田島悠介

ゆかりちゃんも分からないことがあったら質問してね!

大石ゆかり

分かりました。ありがとうございます!

 

TechAcademyでは、初心者でも最短4週間で、Pythonを使った人工知能(AI)や機械学習の基礎を習得できる、オンラインブートキャンプを開催しています。

また、現役エンジニアから学べる無料体験も実施しているので、ぜひ参加してみてください。