Python

Pythonを利用してロジスティック回帰分析をする方法を現役エンジニアが解説【初心者向け】

初心者向けにPythonを利用してロジスティック回帰分析をする方法について現役エンジニアが解説しています。ロジスティック回帰分析とは複数の変数から分析を行い質的確率を予測するものです。scikit-learnライブラリの、データのセット・前処理・機械学習モデル・モデル評価・選択方法を解説します。

テックアカデミーマガジンは受講者数No.1のプログラミングスクール「テックアカデミー」が運営。初心者向けにプロが解説した記事を公開中。現役エンジニアの方はこちらをご覧ください。 ※ アンケートモニター提供元：GMOリサーチ株式会社　調査期間：2021年8月12日～8月16日　調査対象：2020年8月以降にプログラミングスクールを受講した18～80歳の男女1,000名　調査手法：インターネット調査

Pythonを利用してロジスティック回帰分析をする方法について解説します。この記事では、Pythonでデータ解析や機械学習を使うときに必よく使われるscikit-learnと呼ばれるライブラリについて解説し、実際にscikit-learnを使った回帰分析を実践します。ぜひ参考にしてみてください。

そもそもPythonについてよく分からないという方は、Pythonとは何なのか解説した記事を読むとさらに理解が深まります。

なお本記事は、TechAcademyのオンラインブートキャンプPython講座の内容をもとに紹介しています。

今回は、Pythonに関する内容だね！

どういう内容でしょうか？

Pythonを利用してロジスティック回帰分析をする方法について詳しく説明していくね！

お願いします！

scikit-learnライブラリとは？

“scikit-learn”は「サイキット・ラーン」という呼ばれるPythonのデータ解析と機械学習に特化したライブラリです。

このライブラリを使うことでPythonがわかる人なら、誰でも比較的簡単に数行で機械学習を実践することができます。

scikit-learnライブラリはNumpやScipyといった行列計算に必要なライブラリ、matplotlibといったグラフなどのデータの可視化に便利なライブラリが組み込まれています。

また、scikit-learnのチートシートを使えば、使いたいデータに合った機械学習がどれに当たるのか、専門的な知識がなくてもすぐにわかるようになっています。

scikit-learnによるロジスティック回帰分析。データのセット・前処理・機械学習モデル・モデル評価・選択方法

scikit-learnの記事を読んでみると、scikit-learnについてさらによく分かると思うので、詳しく知りたい方は参照してみてください。

scikit-learnモジュールのインポート

scikit-learnを使うには、まずは、Anacondaと呼ばれるPythonのパッケージ管理ツールを使ってインストールするか、pipコマンドを使ってscikit-learnをインストールしてください。

Anacondaを使う場合は、コマンドプロンプト(Windows)、もしくは、ターミナル(Mac)で

conda install scikit-learn

を実行します、

pipを使う場合は、condaの部分をpipに変えて、

pip install scikit-learn

を実行すれば、scikit-learnのインストールができます。

コマンドを実行して、

Successfully installed scikit-learn ...

と表示されれば大丈夫です。. . . の部分はscikit-learnのバージョンが表示されます。

あとは、Pythonのコードで、scikit-kearnを

import sklearn

でインポートすればPythonでscikit-learnを使うことができます。

[PR] Pythonで挫折しない学習方法を動画で公開中

scikit-learnモジュールの使い方

scikit-learnにはデータ解析に便利なツールが数多く用意されています。

主に、

データセット
データの前処理
機械学習モデル
モデル評価、選択

のための各ツールが提供されています。

機械学習を試したい場合には、scikit-learnを使えば、データセットのダウンロードから性能の評価まで一貫して行なうことができるので、非常に便利です。

データセットには、ボストンの住宅価格、アイリス(アヤメ)の花のデータ、手書き文字など様々なものがあります。データの前処理には、標準化、正規化などといったデータの加工に必要なツールがあります。

そして、機械学習モデルには、「教師あり学習」と「教師なし学習」と呼ばれるの2種類のモデルがあり、チートシートを参照して複数のモデルの中から必要なモデルを選ぶことができます。

scikit-learnモジュールを利用してロジスティック回帰分析してみよう

それでは、実際にscikit-learnを使ってみましょう。

ここからは、Jupyterノートブックを用いることを想定しています。ですが、他の方法でも実践できるので使いたい環境で行なってください。

今回は、ロジスティック回帰と呼ばれる機械学習を行います。ロジスティック回帰は教師あり学習に属するモデルで、クラス分類や確率の予測などに使われる分析手法です。

ロジスティック回帰についての詳細な説明は省きますが、興味のある方はぜひ調べてみてください。Qiitaのこちらの記事などがオススメです。

ではコードを書いていきましょう。まずは、scikit-learnと必要なツールをインポートします。

#必要なツールのインポート
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score
import pandas as pd

load_irisはアイリスデータセットをダウンロードするのに使います。

アイリスというのは、花の名前ですが、より細かい種類に別れています。このアイリスの種類を予測するのが今回の目標です。

train_test_split：データセットを訓練用とテスト用に分けるときに使います
StandardScaler：データの前処理手法の一つである標準化で用います
LogisticRegression：今回学習に使うロジスティック回帰というモデルです
accuracy_score：モデルの性能を評価するとき正解率を計算することに使います

他にもここでは、pandasというライブラリをインポートしています。Pandasを用いることでデータを扱いやすくなっています。

続いて、

iris_data = load_iris()
iris_df = pd.DataFrame(iris_data.data, columns=iris_data.feature_names)
iris_df["target"] = iris_data.target

とします。

ここでは、アイリスデータセットを読み込み、pandasでデータフレームというデータ型に変換し、データフレームの”target”列に、予測する値となるラベルとして、花の種類を追加しています。

次に、

#データセットをテスト用と訓練用に分ける
x_train, x_test, y_train, y_test = train_test_split(
    iris_df.iloc[:, 0:4],
    iris_df.iloc[:, 4],
    test_size = 0.3,
    random_state=1
)

#データを標準化
scl = StandardScaler()
scl.fit(x_train) #学習用データで標準化
x_train_std = scl.transform(x_train)
x_test_std = scl.transform(x_test)

として、データの分離と前処理を行ないます。あとは、実際に学習を行って性能を評価すれば良いだけです。

clf = LogisticRegression(C=1e5)
clf.fit(X_train_std, Y_train)#訓練データから学習を行う
print( "正解率:{:.2f}%".format(accuracy_score(Y_test, clf.predict(x_test_std)) * 100 ))

fit()というメソッドは訓練用データから学習するときに用います。print()の部分で、テストデータに対する正解率を計算して表示しています。

今回は、95%ほどの正解率でした。

このように少ないコードで簡単に機械学習が行えるのが、scikit-learnです。以上、Pythonのライブラリであるscikit-learnついて解説しました。

ドキュメントなどを読めば、詳細まで知ることができます。一度目を通しておくと、後々役に立つと思います。

関連記事：徹底解説！scikit-learnを使った教師あり・なし学習とは

関連記事：機械学習のライブラリ！scikit-learnとは【初心者向け】

コラム

コスパとタイパ、両方結果的に良くなる良くなる学び方とは？

「スクールは高いし時間も縛られて効率が悪い」と考える方は多いと思います。
もちろん、時間も費用もかかることは間違いありません。
ただ結果的に無駄な学びにお金も時間もかける方がリスクが高いという考えもあります。

コスパ・タイパ最適化の参考として、テックアカデミー卒業生がスクールを選んだ理由をご紹介します。

・困ったときに、質問や相談できる相手がいるため挫折しなかった
・プロとして必要なスキルのみを深く学べたので無駄がなかった
・副業案件の提供と納品までのサポートがあったので目的を達成できた

安価・短期間で広く浅く学んでも意味がありません。本当に自分の目的が達成できるか、それが重要です。
自分にどのスキルや学び方が合っているか、どんな学習方法かなど、お気軽に無料相談に参加してみませんか？

カウンセラー・現役のプロへ、何でも気軽に無料相談可能。 30分か60分お好きな時間が選べて、かつ3回まですべて無料でご利用できます。
無理な勧誘は一切ないので、お気軽にご参加ください。

今なら相談した方限定の割引・参加特典付き！無料相談はこちら

監修してくれたメンター

メンターOS

AIプログラミングを使って開発を行う。

プログラミング歴は約3年でPythonは割と得意。好きな物理理論は一般相対性理論で動物も好き。

内容分かりやすくて良かったです！

ゆかりちゃんも分からないことがあったら質問してね！

分かりました。ありがとうございます！

TechAcademyでは、初心者でもPythonを使った人工知能（AI）や機械学習の基礎を習得できるオンラインブートキャンプPython講座を開催しています。

挫折しない学習方法を知れる説明動画や、現役エンジニアとのビデオ通話とチャットサポート、学習用カリキュラムを体験できる無料体験も実施しているので、ぜひ参加してみてください。

プログラミングを独学で学習していて、このように感じた経験はないでしょうか？

・調べてもほしい情報が見つからない
・独学のスキルが実際の業務で通用するのか不安
・目標への学習プランがわからず、迷子になりそう

テックアカデミーでは、このような学習に不安を抱えている方へ、マンツーマンで相談できる機会を無料で提供しています。
30分間、オンラインでどんなことでも質問し放題です。

「受けてよかった」と感じていただけるようカウンセラーやエンジニア・デザイナーがあなたの相談に真摯に向き合います。

「自分に合っているか診断してほしい」
「漠然としているが話を聞いてみたい」
こんなささいな悩みでも大丈夫です。

無理な勧誘は一切ありませんので、まずはお気軽にご参加ください。
※体験用のカリキュラムも無料で配布いたします。（1週間限定）

今なら参加者限定の割引特典付き！無料相談を予約する

Pythonのextendメソッドの使い方を現役エンジニアが解説【初心者向け】

Pythonのextendメソッドの使い方について解説します。そもそもPythonについてよく分からないという方は、Pythonとは何なのか解説した記事...

Python

Pythonにおけるassertの利用方法を現役エンジニアが解説【初心者向け】

Pythonにおけるassertの利用方法について、TechAcademyのメンター（現役エンジニア）が実際のコードを使用して、初心者向けに解説します。 ...

Python

Pythonでコマンドライン引数を受け取る方法を現役エンジニアが解説【初心者向け】

Pythonでコマンドライン引数を受け取る方法について、TechAcademyのメンター（現役エンジニア）が実際のコードを使用して、初心者向けに解説します。 ...

Python

Pythonによるmap関数の利用方法を現役エンジニアが解説【初心者向け】

Pythonによるmap関数の利用方法について解説します。そもそもPythonについてよく分からないという方は、Pythonとは何なのか解説した記事を読...

Python

Pythonのプログラムをデーモン（常駐ソフト）化する方法を現役エンジニアが解説【初心者向け】

Pythonのプログラムをデーモン（常駐ソフト）化する方法について解説します。そもそもPythonについてよく分からないという方は、Pythonとは何な...

Python

Pythonのrange関数で繰り返し処理を行う方法を現役エンジニアが解説【初心者向け】

Pythonのrange関数で繰り返し処理を行う方法について解説します。そもそもPythonについてよく分からないという方は、Pythonとは何なのか解...

Python

あわせてよく読まれている記事

機械学習のライブラリ！scikit-learnとは【初心者向け】現役エンジニアが解説

今回は、Pythonの代表的な機械学習のライブラリであるscikit-learnについて解説します。機械学習というと、複雑な数式を使ったり、なんだか難しそうなイメージですが、scikit-learnを使うと、とても手軽に機械学習を試してみることができます。ぜひ、この記事を参考に、機械学習にチャレンジしてみてください。目次 scikit-learnとは scikit-learnを利用するには scikit-learnの主な機能 scikit-learnを使った機械学習(1) scikit-learnを使った機械学習(2) scikit-learnとは scikit-learnは、Pythonの機械学習ライブラリです。「サイキット・ラーン」と読みます。 scikit-learnはオープンソース（BSD license）で公開されており、個人／商用問わず、誰でも無料で利用することができます。 scikit-learnは、現在も活発に開発が行われており、インターネット上で情報を探すのも容易です。多くの機械学習アルゴリズムが実装されていますが、どのアルゴリズムでも同じような書き方で利用することができます。また、サンプルのデータセット（トイデータセット）が付属しているため、インストールしてすぐ機械学習を試すことができます。このようなことから、初学者が機械学習を学び始めるには、最適のライブラリと言えます。他にもオープンソースで使えるPythonのライブラリをまとめているので、合わせてご覧ください。 [PR] Pythonで挫折しない学習方法を動画で公開中scikit-learnを利用するには scikit-learnを利用するには、Anacondaなどの開発環境のパッケージを使うのが簡単です。 Anaconda Anacondaは、データ分析やグラフ描画など、Pythonでよく利用されるライブラリを含んだ開発環境です。もちろん、scikit-learnも含まれています。よって、Anacondaを導入するだけで、scikit-learnをすぐ利用することができます。 Anacondaにscikit-learnがインストールされているかは、メニュー画面のEnvironmentsから、Installedを選択し、検索BOXに「scikit-learn」と入力することで確認を行うことができます。なお、Anacondaなどの開発環境を利用せず、手動でscikit-learnをインストールして利用することもできます。中級者向けとなるため手順は省略いたしますが、その場合scikit-learnをインストールする前に、事前に以下のライブラリもインストールする必要があります。 NumPy Scipy Pandas scikit-learnの主な機能次にscikit-learnの主な機能、特に機械学習のモデルについて説明します。以下をご覧ください。これはscikit-learnのアルゴリズムチートシートと呼ばれます。 scikit-learnを用いて機械学習を行う際、自分が行いたい分析（分類／回帰／クラスタリングなど）について、適切なモデルを選択する際の手助けとなるものです。また、scikit-learnでは、簡単にモデルを取り替えて機械学習を行うことができます。モデルを取り替える方法については、以降の項で説明します。分類（classification）与えられたデータがどのクラスに属するかを判別するものです。教師あり学習の分類問題を解くアルゴリズムと表現できます。以下のような種類があります。 SGD（stochastic gradient descent）大規模データ（10万件以上）におすすめな、線形のクラス分類手法です。カーネル近似 SGDではうまく分類できない場合に利用する、非線形なクラス分類手法です。こちらも大規模データ向けです。 Linear SVC 中小規模（10万件未満）におすすめな、線形のクラス分類手法です。 k近傍法 Linear SVCではうまく分類できない場合に利用する、非線形なクラス分類手法です。こちらも中小規模データ向けです。この他、テキストデータの場合、ナイーブベイズという手法があります。回帰（regression）与えられたデータをもとに、目的とする値を予測するものです。教師あり学習の回帰問題を解くアルゴリズムと表現できます。以下のような種類があります。 SGD（stochastic gradient descent）大規模データ（10万件以上）におすすめな、線形の回帰分析手法です。 LASSO、ElasticNet 中小規模（10万件未満）で、説明変数の一部が重要な場合におすすめな、回帰分析手法です。 Ridge、Liner SVR 中小規模（10万件未満）で、説明変数の全てが重要な場合におすすめな、回帰分析手法です。 SVR（ガウスカーネル）、Ensemble Ridge、またはLinerSVRではうまく分析できない場合に利用する、非線形な回帰分析手法です。クラスタリング（clustering）与えられたデータを、なんらかの規則にのっとって分けるものです。教師なし学習のクラスタリング問題を解くアルゴリズムと表現できます。以下のような種類があります。 KMeans いくつのクラスタに分かれるのか、事前に決めることができる場合におすすめな、クラスタリング分析手法です。大規模データの場合、MiniBatchといって、データを分けながら学習させる手法を取ります。スペクトラルクラスタリング、GMM KMeansではうまく分析できない場合に利用する、非線形なクラスタリング分析手法です。 MeanShift、VBGMM いくつのクラスタに分かれるのか、事前に決めることができない場合におすすめな、クラスタリング分析手法です。その他の機能次元削減与えられたデータの次元数が多い場合、学習効率を上げるため、次元削減という前処理を行います。 PCA、カーネルPCA、Isomap、SpectralEmbeddingなどの手法があります。ハイパーパラメータの最適化機械学習を行う際、学習の方法などを調整する数値のことを「ハイパーパラメータ」と言います。グリッドサーチ、クロスバリデーションなどの手法があります。コラムコスパとタイパ、両方結果的に良くなる良くなる学び方とは？「スクールは高いし時間も縛られて効率が悪い」と考える方は多いと思います。もちろん、時間も費用もかかることは間違いありません。ただ結果的に無駄な学びにお金も時間もかける方がリスクが高いという考えもあります。コスパ・タイパ最適化の参考として、

機械学習

徹底解説！scikit-learnを使った教師あり・なし学習とは

今回は、教師あり学習と教師なし学習について解説します。ぜひ、この記事を参考に、教師あり・なし学習にチャレンジしてみてください。なお本記事は、TechAcademyのオンラインブートキャンプ、AI講座とデータサイエンス講座の内容をもとに作成しています。田島悠介今回は、scikit-learnに関する内容だね！大石ゆかりどういう内容でしょうか？田島悠介 scikit-learnを使った教師あり・なし学習について詳しく説明していくね！大石ゆかりお願いします！教師あり学習とは教師あり学習とは、正解やより良い方法を膨大なデータとして用意しておき、その正解を元にコンピューターが学習することで、コンピューター自身を成長させる学習方法です。 Googleで開発されたAlphaGoという深層学習（ディープラーニング）により、世界最高峰のプロ囲碁棋士に勝利したプログラムがあります。このAlphaGoのうち、第3世代までの、AlphaGo Masterは教師あり学習を元に、自己学習を繰り返した結果、プロ棋士に勝てるようになりました。 [PR] Pythonで挫折しない学習方法を動画で公開中教師あり学習の手法ここでは、scikit-learnを使用した教師あり学習の手法とその表示グラフを紹介します。 Liner Model(線形回帰) 画像引用：http://scikit-learn.org Logistic Regression(ロジスティック回帰) 画像引用：http://scikit-learn.org Support Vector Regression(SVM) 画像引用：http://scikit-learn.org Perceptron(パーセプトロン) 画像引用：http://scikit-learn.org Decision Tree Regression(決定木回帰) 画像引用：http://scikit-learn.org Rondom Forests(ランダムフォレスト) 画像引用：http://scikit-learn.org Ada Boost 画像引用：http://scikit-learn.org KNeighbors 画像引用：http://scikit-learn.org Neural Network(ニューラルネットワーク) 画像引用：http://scikit-learn.org 教師なし学習教師なし学習といっても、最初の段階で教師あり学習のように、正解の大量のデータを教師として学習する部分が無いだけであり、基本的なルールは学習する必要があります。基本ルール部分を学びますが、その部分は教師として考えないという理論です。教師なし学習では、基本ルール内で勝つために、自分自身と戦い続けることで、性能を上げていきます。 AlphaGo Masterの次に開発されたAlphaGo Zeroは、教師なし学習を元に発展しました。 AlphaGo Zero では、ルール以外の知識は全く与えずに強化学習を行うことで、40日後に、AlphaGo Masterに89勝11敗しました。つまり、AlphaGo Zeroは世界最強の囲碁棋士に40日間で成長することができたということです。ここでは、scikit-learnを使用した教師なし学習の手法とその表示グラフを紹介します。 K-means(k平均法) 画像引用：http://scikit-learn.org PCA 画像引用：http://scikit-learn.org コラムコスパとタイパ、両方結果的に良くなる良くなる学び方とは？「スクールは高いし時間も縛られて効率が悪い」と考える方は多いと思います。もちろん、時間も費用もかかることは間違いありません。ただ結果的に無駄な学びにお金も時間もかける方がリスクが高いという考えもあります。

機械学習

【徹底解説】機械学習（マシンラーニング）とは！まずはここから理解しよう

現在、幅広い業種で人工知能（AI）が使われています。またニュースや新聞でも、人工知能の報道を目にしない日はありません。このような状況の中、人工知能に興味・関心を寄せるエンジニアが増えてきています。また企業においても、人工知能のスキルを持ったエンジニアの採用が活発に行われています。機械学習は、その人工知能の中核をなすテクノロジーであり、現代のエンジニアにとっては、ほぼ必須の知識とも言えるでしょう。この記事では、機械学習の概要、各種手法についての解説、ディープラーニングとの違いなどを紹介します。機械学習とはどのような技術か、実際にどのようなサービスに使われているか、ぜひ知っておきましょう。なお本記事は、TechAcademyのAIオンライン講座の内容をもとに作成しています。目次機械学習とは教師あり学習とは教師なし学習とは強化学習とはディープラーニングとの違いとは機械学習の代表的なライブラリ田島悠介今回は機械学習について解説するよ。大石ゆかり田島メンター！機械学習って最近よく耳にしますね。具体的にどのような技術なんですか〜？田島悠介人工知能の中核をなす技術の1つなんだ。詳しく見ていこう。大石ゆかり分かりました！機械学習とは人工知能（AI）とは、「コンピューターが物事やルールを理解するための仕組み」の様々な技術の総称です。コンピューターが物事やルールを理解するためには、人間が学習するプロセスと同様に、情報を与えて物事の特徴やルールを学習させなくてはなりません。この学習方法のことを機械学習（マシンラーニング）と呼びます。機械学習は、従来のプログラミングと違い、開発者が全ての動作をプログラミングするわけではありません。開発者はコンピューターにデータと分け方を与えます。コンピューターはその情報を元に、データの特徴を学習し、新たなデータに対する正解を予測します。例えば、以下のような手書き数字の画像データがあったとします。 MNIST 開発者は、この画像データに対する正解、「0」や「1」といった数値をペアで与えます。コンピューターは、画像データと正解の数値をもとに、数値毎の画像データの特徴を学習します。例えば「画像データのどの位置が濃い」といった特徴です。この学習の成果を「モデル」と言います。 tensorflow.org また、このことは、機械学習はデータの特徴をモデル化（数式化）できることを前提としている、とも捉えることができますね。そして、このモデルをもとに、新たな画像データの正解を「予測」します。これが機械学習の大まかな流れです。なお、人工知能の精度を高めるには、大量のデータでコンピューターに学習させることが必要です。2000年代に入り、高速・高性能なコンピューターが容易に入手できるようになりました。また、インターネットの発展により、従来より格段に多くのデータを収集できるようになりました。このことが、現代の機械学習の技術を支えています。それでは、次に機械学習の種類について確認して行きましょう。機械学習は大きく「教師あり学習」、「教師なし学習」、「強化学習」の3つに分けることができます。 [PR] Pythonで挫折しない学習方法を動画で公開中教師あり学習教師あり学習とは、データと正解を与えて、コンピューターに学習させる方法です。前出の手書き数字の学習例も教師あり学習です。教師あり学習は、分類問題と回帰問題に分けることができます。分類問題分類問題は、データを種類ごとに分けることを目標とします。例えば画像データを与えて花の種類を予測する、音声データを与えて文字を予測する、これらは分類問題となります。 Iris_flower_data_set 回帰問題回帰問題は、データの特徴から、新しいデータに対する値を予測することを目標とします。例えば株価の予測や、天気予報、これらは回帰問題となります。教師あり学習の手法次に代表的な教師あり学習の手法について紹介します。線形回帰、線形分類データを直線で予測するのが線形回帰、直線で分けるのが線形分類です。線形回帰（分類）は、学習も予測も高速で、モデルをシンプルに構築できる特徴があります。また古くから研究されており、以外に線形回帰（分類）できるデータは多いため、まず最初に検討してみるべき機械学習の手法の1つでしょう。 Wikipedia SVM(サポートベクターマシン) SVMは線形回帰（分類）の手法の1つです。線形回帰（分類）は直線で分類を行うのに対し、SVMは超平面分離定理という考え方をもとに、空間をねじれさせることで、最終的に曲線で回帰（分類）を行う手法です。 SVMは優れた機械学習の手法の1つで、ディープラーニングが登場するまでは、とても多く使われていました。モデルをシンプルに構築出来、精度も良いことから、現在でも多く使われている手法です。決定木木構造のモデルにより分類する手法です。決定木は機械学習の手法としてだけでなく、意思決定を助けるためのツールとしてもよく用いられます。他の手法に比べて、人間が見てもモデルを理解しやすいことから、リスクマネジメントのような、人間の判断が必要な分野の予測によく用いられます。 Wikipedia ニューラルネットワークニューラルネットワークは、重回帰分析（多変数解析）の手法の1つです。人の神経回路をモデルとしており、機械学習の手法としては、最も古く(1950年代)から研究された来たものの1つです。 Wikipedia ロジスティック回帰「回帰」と書いていますが「分類」の手法です。ニューラルネットワークのモデルの一部を変更（活性化関数をシグモイド関数に変更）したものです。ディープラーニングの1層版です。ディープラーニングはこのロジスティック回帰を複数層組み合わせたモデルです。教師なし学習とは教師なし学習とは、データだけ与えて、コンピューターにデータをグループ化（クラスタリング）させる方法です。例えば通販サイトで商品を購入した時「この商品を買った人はこんな商品も買っています」という文章を見たことは無いでしょうか。これは、コンピューターに「購買履歴」のデータを与えることで、教師なし学習により「商品Aを買った人は、商品Bを買う確率が高い」というようにユーザをグループ化することで実現しています。また、教師なし学習には主成分分析といって、データ分析をより行いやすくするための方法もあります。教師なし学習には以下のような手法があります。 k平均法クラスタ（分類するグループ）の数を決め、クラスタの数分、ランダムな点を起きます。各データは一番近い点に所属させます。所属が決まったら、クラスタに属するデータの中心を新しい点とします。これを繰り返すことでデータをグループ化します。主成分分析機械学習でモデルを構築する際、その前段階として、データの次元（説明変数の数）を削減するために用いられます。変数同士の相関度合いと寄与率をもとに、複数の変数を相関の少ない「主成分」と呼ばれる変数にまとめる手法です。これにより、機械学習のモデルをシンプルに構築することができるようになります。コラムコスパとタイパ、両方結果的に良くなる良くなる学び方とは？「スクールは高いし時間も縛られて効率が悪い」と考える方は多いと思います。もちろん、時間も費用もかかることは間違いありません。ただ結果的に無駄な学びにお金も時間もかける方がリスクが高いという考えもあります。コスパ・タイパ最適化の参考として、テックアカデミー卒業生がスクールを選んだ理由をご紹介します。

機械学習

データ分析のライブラリ！Pandasとは【初心者向け】｜現役エンジニアが解説

今回は、Pythonのデータ解析用ライブラリであるPandasについて解説します。 Pandasを使うと、データの統計量を表示したり、グラフ化するなど、データ分析（データサイエンス）や機械学習で必要となる作業を簡単に行うことができるようになります。 Pythonでデータ分析を行うには、必須のライブラリなので、ぜひこの記事を参考に、Pandasの使い方を覚えましょう。なお本記事は、TechAcademyのAIオンライン講座の内容をもとに作成しています。目次 Pandasとは Pandasの特徴 Pandasでできること Pandasを使うメリット Pandasを利用するにはダウンロード手順初期設定 Pandasの使い方 Pandasをより便利に使う方法 Pandasの勉強方法大石ゆかり田島メンター！Pandasというのは何でしょうか？田島悠介 Pythonのデータ解析用のライブラリだよ。Pythonでデータ分析や機械学習を行うには、必須のライブラリなんだ。大石ゆかりどのような機能があるのですか？田島悠介例を見ながら説明していくね！ Pandasとは Pandasは、Pythonでデータ分析を効率的に行うためのライブラリです。Pandasはオープンソース(BSDライセンス)で公開されており、個人／商用問わず、誰でも無料で利用することができます。 Pandasを使うと、データの読み込みや統計量の表示グラフ化データ分析に関する作業を容易に行うことができるようになります。また主要なコードはPythonまたはC言語で書かれており、Pythonだけでデータ分析を行うのと比較して、非常に高速に処理を行うことができます。データ分析（データサイエンス）は、機械学習を行うまでの前処理（データの読み込み、クリーニング、欠損値の補完、正規化など）が、全ての作業の8〜9割を占めると言われています。Pandasを使うとそのような処理が効率的に行えるようになるため、Pythonで機械学習を行うには、Pandasは必須のライブラリとなっています。 [PR] Pythonで挫折しない学習方法を動画で公開中Pandasの特徴 Pythonによるデータ分析で多く使われているライブラリといえば、PandasやMatplotlib、NumPyなどがあげられます。これらのライブラリはそれぞれ以下のような特徴があります。 Pandas Pandasはデータの読込や並べ替え、欠損値（欠けている項目値）の補完などを行うことができるライブラリです。データ分析の前処理段階でとても多く利用されています。データの読込はCSVやテキストだけでなく、エクセルやインターネット上で提供されている株価情報など、多様な形式のデータを読み込むことが出来ます。また、Pandasの特徴はDataFrameという多機能な「表」にあります。DataFrameにはデータの平均値や行数などの概要的な特徴を把握する機能や、並べ替えや列名の変更などのデータを整形する機能があります。またキーを指定しての集計やMatplotlibと連携してのグラフによる可視化など、データ分析のデータ前処理の段階で便利な多くの機能が提供されています。データ分析の過程では、Pandasである程度データをきれいに整えてから、NumPyで数値計算を行うようといったように、使い分けて利用することが多いでしょう。 Matplotlib MatplotlibはPythonで代表的なグラフを描画するライブラリです。2Dだけでなく3Dも含めた多くの種類のグラフを描画することができます。 Matplotlibは慣れると使いやすいのですが、はじめは使い方がやや難しく感じると思います。そのような場合、PandasやSeabornなどのライブラリと組み合わせることで、見た目の良いグラフを簡単に描画することができます。 Matplotlibはデータ分析の様々な段階で、NumPyやPandasと組み合わせてデータの概要を把握したり、特徴を可視化するような目的で使用します。 NumPy NumPyは数値計算や行列演算を行うライブラリです。複数の数値を配列としてまとめて扱ったり、行列演算を行ったりするのが得意です。特にコンピューターで小数点以下を扱う際の標準的な形式である浮動小数点型の行列演算を高速に行うことが出来ます。また三角関数や平方根などの数値計算の機能も豊富です。 NumPyはある程度データの前処理が終わり、きれいに整ったデータに対して数値計算を行うのに向いているライブラリと言えます。 Pandasでできること Pandasには多くの機能があります。主に利用する機能を確認してみましょう。なお以下でDataFrameと記載しているのはDataFrameオブジェクトを指しています。データの読込 CSV形式のデータの読込：read_csv() Excelファイルの読込：read_excel() JSON文字列の読込：read_json() pickle形式(Pythonオブジェクトを保存する形式)によるデータの読込/書込：read_pickle()、to_pickle() インターネット上で提供されている株価情報の読込：pandas-datareader データの特徴を把握データの特徴を表示：DataFrame.info() 要約統計量を表示：DataFrame.describe() データの一部を表示：DataFrame.head()、DataFrame.tail() データの形状を表示：DataFrame.shape 行数を取得：DataFrame.index.values 列名を取得：DataFrame.columns.values それぞれの列の型を取得：DataFrame.dtypes データの切り出し（スライス）データのスライス：DataFrame[]、DataFrame.iloc[]、DataFrame.loc[] フィルタリング：DataFrame.query() データの並べ替え値による並べ替え：DataFrame.sort_values() インデックスによる並べ替え：DataFrame.sort_index() 列名の変更：DataFrame.rename() 集計列の集計：DataFrame.value_counts() 表の集計：DataFrame.groupby() ※groupby().sum()で合計、groupby().mean()で平均値得ることができる可視化 Matplotlibのimportが必要ヒストグラム：DataFrame.hist() 散布図、線グラフ：DataFrame.plot() 棒グラフ：DataFrame.bar() 箱ひげ図：DataFrame.boxplot() 欠損値の扱い欠損値の確認：DataFrame.isnull().sum() 欠損値に値を埋める：DataFrame.fillna() 欠損値のある行を削除する：DataFrame.dropna() その他カテゴリー変数の展開：get_dummies() 列同士の相関を確認：DataFrame.corr() コラムコスパとタイパ、両方結果的に良くなる良くなる学び方とは？「スクールは高いし時間も縛られて効率が悪い」と考える方は多いと思います。もちろん、時間も費用もかかることは間違いありません。ただ結果的に無駄な学びにお金も時間もかける方がリスクが高いという考えもあります。コスパ・タイパ最適化の参考として、テックアカデミー卒業生がスクールを選んだ理由をご紹介します。

機械学習

Pythonによるk-meansクラスタリングの実装方法を現役エンジニアが解説【初心者向け】

Pythonによるk-meansクラスタリングの実装方法について、テックアカデミーのメンター（現役エンジニア）が実際のコードを使用して初心者向けに解説します。目次scikit-learnライブラリとは？scikit-learnモジュールのインポートscikit-learnモジュールの使い方scikit-learnモジュールを利用してロジスティック回帰分析してみよう監修してくれたメンターそもそもPythonについてよく分からないという方は、Pythonとは何なのか解説した記事を読むとさらに理解が深まります。田島悠介今回は、Pythonに関する内容だね！大石ゆかりどういう内容でしょうか？田島悠介 Pythonによるk-meansクラスタリングの実装方法について詳しく説明していくね！大石ゆかりお願いします！ 1. k-meansとは？ k-meansとはクラスタリングの手法の一つで、非階層型クラスタリングのアルゴリズムです。クラスタの平均を用いて、与えられたクラスタ数 k個に分類することからこの名前が付けられました。k平均法と呼ばれることもあります。非階層型クラスタリングとは、異なる性質の集団の中から似た特徴を持ったものでクラスタを行う手法のことです。階層型と異なり、階層的な構造を持たず、予め決められたクラスタ数でサンプルを分類します。サンプルが大量にある正規分布のデータに対して、データをグループ分けを行う際に効果的です。また、クラスタリングは機械学習の手法一つでアルゴリズムから特徴を見つけて分類を行うことから、「教師なし学習」となります。 2. NumpyのインストールここからはPythonでクラスタリングを行うための環境をセッティングしていきます。まずは、配列の演算を扱うためのライブラリとしてNumpyをインストールしていきます。以下のコマンドを実行してインストールします。 pip install numpy [PR] Pythonで挫折しない学習方法を動画で公開中3. Pandasのインストール続いて、サンプルデータのファイルを読み込み、データフレームの形式に変換するためにPandasをインストールします。 pip install pandas コラムコスパとタイパ、両方結果的に良くなる良くなる学び方とは？「スクールは高いし時間も縛られて効率が悪い」と考える方は多いと思います。もちろん、時間も費用もかかることは間違いありません。ただ結果的に無駄な学びにお金も時間もかける方がリスクが高いという考えもあります。コスパ・タイパ最適化の参考として、

Python

初心者向け！機械学習を学ぶのにおすすめの本10選

今回は、機械学習を学ぶのにおすすめの本をまとめています。機械学習やディープラーニングを初めて学ぶ人におすすめの本、仕事でこれから使う人におすすめの本を紹介しています。書籍によって概念中心のもの、実践中心のものなど特徴が違うので、自分の好みに合った本を見つけてみてください。なお本記事は、TechAcademyのAIオンライン講座の内容をもとに作成しています。まず最初に、非エンジニア向けのおすすめ本を紹介します。仕事ではじめる機械学習仕事ではじめる機械学習特徴プロジェクトのはじめ方や、システム構成、学習のためのリソースの収集方法を中心にビジネスサイドの視点を踏まえた特徴があります。対象者深層学習も画像認識も自然言語処理も機械学習も全て含めて人工知能という1つのソフトウェアを使うと簡単に解決できるという思想の上司から、「人工知能のプロジェクト立ち上げるからあとよろしく」と言われて、現場を任された担当者向けです。学習できること最初に機械学習プロジェクトの流れを理解した上で、現場のシステムにおける機械学習の問題点を理解し、その対処方法を考えていきます。アルゴリズムについての学習では、例えば、パーセプトロン・ロジスティック回帰・SVM・ニューラルネットワーク・k-NN・決定木・ランダムフォレスト・GBDTを学習します。実装部分では、映画の推薦システムをつくるという内容で、実際に機械学習を利用した実装の解説があります。 60分でわかる! 機械学習&ディープラーニング超入門 60分でわかる! 機械学習&ディープラーニング超入門 (60分でわかる! IT知識) 特徴新聞を読むような感覚で機械学習とディープラーニングについて理解できます。対象者機械学習とディープラーニングを使うとどんなことができるのか全体像を理解したいビジネスマン向け学習できること自分で機械学習や人工知能について学習したい方だけでなく、だれかに説明することが出来るレベルの分かりやすい解説テキストとして学習利用することができます。 [PR] Pythonで挫折しない学習方法を動画で公開中やさしく学ぶ機械学習を理解するための数学のきほんアヤノ＆ミオと一緒に学ぶ機械学習の理論と数学、実装までやさしく学ぶ機械学習を理解するための数学のきほん ~アヤノ&ミオと一緒に学ぶ機械学習の理論と数学、実装まで~ 特徴忘れかけた高校卒業程度の数学の知識でも読むことが出来るという、機械学習というタイトル本の中でも抜きん出て安心感の有る文系向け機械学習解説本です。著者は、LINE Fukuoka株式会社に勤務しているデータエンジニアです。対象者機械学習に興味があるけど、数式が出てきた時点で意味がわからなくなってしまうという方向けです。学習できること基本的な機械学習の内容と、必要な数学の復習、PythonとNumPyの基礎について学習できます。ここから先はエンジニア向けの機械学習書籍です。 Pythonではじめる機械学習 ―scikit-learnで学ぶ特徴量エンジニアリングと機械学習の基礎 Pythonではじめる機械学習 ―scikit-learnで学ぶ特徴量エンジニアリングと機械学習の基礎特徴 scikit-learnのリリースマネージャである筆者が、機械学習の基礎だけでなく、「特徴量エンジニアリング」と「モデルの評価と改善」について詳しく解説している特徴があります。ここでは網羅できないほど多岐にわたる開発手法に関して、ちょうどよい掘り下げ方で解説してある点が特徴的です。対象者「特徴量エンジニアリング」と「モデルの評価と改善」に関しても関心があるエンジニア向け。学習できること scikit-learnと関連ライブラリの環境設定から、教師あり学習や、教師なし学習についても、その種類とメリット・デメリットに関して細かく解説してあります。「特徴量エンジニアリング」、「モデルの評価と改善」、「アルゴリズムチェーンとパイプライン」、「テキストデータの処理」等実践的な内容も学習できます。コラムコスパとタイパ、両方結果的に良くなる良くなる学び方とは？「スクールは高いし時間も縛られて効率が悪い」と考える方は多いと思います。もちろん、時間も費用もかかることは間違いありません。ただ結果的に無駄な学びにお金も時間もかける方がリスクが高いという考えもあります。

機械学習

記事を検索

ニュース

インタビュー

テクノロジー

キャリア

お問い合わせ

Pythonを利用してロジスティック回帰分析をする方法を現役エンジニアが解説【初心者向け】

scikit-learnライブラリとは？

scikit-learnモジュールのインポート

scikit-learnモジュールの使い方

scikit-learnモジュールを利用してロジスティック回帰分析してみよう

監修してくれたメンター

関連するキーワード

あわせてよく読まれている記事

機械学習のライブラリ！scikit-learnとは【初心者向け】現役エンジニアが解説

徹底解説！scikit-learnを使った教師あり・なし学習とは

【徹底解説】機械学習（マシンラーニング）とは！まずはここから理解しよう

データ分析のライブラリ！Pandasとは【初心者向け】｜現役エンジニアが解説

Pythonによるk-meansクラスタリングの実装方法を現役エンジニアが解説【初心者向け】

初心者向け！機械学習を学ぶのにおすすめの本10選

TechAcademyから
現役エンジニアの方へ
お知らせ

記事を検索

ニュース

インタビュー

テクノロジー

キャリア

お問い合わせ

scikit-learnライブラリとは？

scikit-learnモジュールのインポート

scikit-learnモジュールの使い方

scikit-learnモジュールを利用してロジスティック回帰分析してみよう

監修してくれたメンター

記事を検索

関連するキーワード

関連する記事

あわせてよく読まれている記事

TechAcademyから 現役エンジニアの方へ お知らせ

TechAcademyから
現役エンジニアの方へ
お知らせ