機械学習

機械学習のライブラリ！scikit-learnとは【初心者向け】現役エンジニアが解説

初心者向けに機械学習のオープンソースライブラリscikit-learnとは何かについて詳しく解説しています。実際のデータを使ってscikit-learnを使った機械学習を行っているので、参考にしてみてください。手軽に試すことができます。

テックアカデミーマガジンは受講者数No.1のプログラミングスクール「テックアカデミー」が運営。初心者向けにプロが解説した記事を公開中。現役エンジニアの方はこちらをご覧ください。 ※ アンケートモニター提供元：GMOリサーチ株式会社　調査期間：2021年8月12日～8月16日　調査対象：2020年8月以降にプログラミングスクールを受講した18～80歳の男女1,000名　調査手法：インターネット調査

今回は、Pythonの代表的な機械学習のライブラリであるscikit-learnについて解説します。

機械学習というと、複雑な数式を使ったり、なんだか難しそうなイメージですが、scikit-learnを使うと、とても手軽に機械学習を試してみることができます。

ぜひ、この記事を参考に、機械学習にチャレンジしてみてください。

scikit-learnとは

scikit-learnは、Pythonの機械学習ライブラリです。

「サイキット・ラーン」と読みます。

scikit-learnはオープンソース（BSD license）で公開されており、個人／商用問わず、誰でも無料で利用することができます。

scikit-learnは、現在も活発に開発が行われており、インターネット上で情報を探すのも容易です。

多くの機械学習アルゴリズムが実装されていますが、どのアルゴリズムでも同じような書き方で利用することができます。

また、サンプルのデータセット（トイデータセット）が付属しているため、インストールしてすぐ機械学習を試すことができます。

このようなことから、初学者が機械学習を学び始めるには、最適のライブラリと言えます。

他にもオープンソースで使えるPythonのライブラリをまとめているので、合わせてご覧ください。

[PR]機械学習で挫折しない学習方法を動画で公開中

scikit-learnを利用するには

scikit-learnを利用するには、Anacondaなどの開発環境のパッケージを使うのが簡単です。

Anaconda

Anacondaは、データ分析やグラフ描画など、Pythonでよく利用されるライブラリを含んだ開発環境です。

もちろん、scikit-learnも含まれています。

よって、Anacondaを導入するだけで、scikit-learnをすぐ利用することができます。

Anacondaにscikit-learnがインストールされているかは、メニュー画面のEnvironmentsから、Installedを選択し、検索BOXに「scikit-learn」と入力することで確認を行うことができます。

なお、Anacondaなどの開発環境を利用せず、手動でscikit-learnをインストールして利用することもできます。

中級者向けとなるため手順は省略いたしますが、その場合scikit-learnをインストールする前に、事前に以下のライブラリもインストールする必要があります。

NumPy
Scipy
Pandas

scikit-learnの主な機能

次にscikit-learnの主な機能、特に機械学習のモデルについて説明します。

以下をご覧ください。

これはscikit-learnのアルゴリズムチートシートと呼ばれます。

scikit-learnを用いて機械学習を行う際、自分が行いたい分析（分類／回帰／クラスタリングなど）について、適切なモデルを選択する際の手助けとなるものです。

また、scikit-learnでは、簡単にモデルを取り替えて機械学習を行うことができます。

モデルを取り替える方法については、以降の項で説明します。

分類（classification）

与えられたデータがどのクラスに属するかを判別するものです。

教師あり学習の分類問題を解くアルゴリズムと表現できます。

以下のような種類があります。

SGD（stochastic gradient descent）

大規模データ（10万件以上）におすすめな、線形のクラス分類手法です。

カーネル近似

SGDではうまく分類できない場合に利用する、非線形なクラス分類手法です。

こちらも大規模データ向けです。

Linear SVC

中小規模（10万件未満）におすすめな、線形のクラス分類手法です。

k近傍法

Linear SVCではうまく分類できない場合に利用する、非線形なクラス分類手法です。

こちらも中小規模データ向けです。

この他、テキストデータの場合、ナイーブベイズという手法があります。

回帰（regression）

与えられたデータをもとに、目的とする値を予測するものです。

教師あり学習の回帰問題を解くアルゴリズムと表現できます。

以下のような種類があります。

SGD（stochastic gradient descent）

大規模データ（10万件以上）におすすめな、線形の回帰分析手法です。

LASSO、ElasticNet

中小規模（10万件未満）で、説明変数の一部が重要な場合におすすめな、回帰分析手法です。

Ridge、Liner SVR

中小規模（10万件未満）で、説明変数の全てが重要な場合におすすめな、回帰分析手法です。

SVR（ガウスカーネル）、Ensemble

Ridge、またはLinerSVRではうまく分析できない場合に利用する、非線形な回帰分析手法です。

クラスタリング（clustering）

与えられたデータを、なんらかの規則にのっとって分けるものです。

教師なし学習のクラスタリング問題を解くアルゴリズムと表現できます。

以下のような種類があります。

KMeans

いくつのクラスタに分かれるのか、事前に決めることができる場合におすすめな、クラスタリング分析手法です。

大規模データの場合、MiniBatchといって、データを分けながら学習させる手法を取ります。

スペクトラルクラスタリング、GMM

KMeansではうまく分析できない場合に利用する、非線形なクラスタリング分析手法です。

MeanShift、VBGMM

いくつのクラスタに分かれるのか、事前に決めることができない場合におすすめな、クラスタリング分析手法です。

その他の機能

次元削減

与えられたデータの次元数が多い場合、学習効率を上げるため、次元削減という前処理を行います。

PCA、カーネルPCA、Isomap、SpectralEmbeddingなどの手法があります。

ハイパーパラメータの最適化

機械学習を行う際、学習の方法などを調整する数値のことを「ハイパーパラメータ」と言います。

グリッドサーチ、クロスバリデーションなどの手法があります。

コラム

コスパとタイパ、両方結果的に良くなる良くなる学び方とは？

「スクールは高いし時間も縛られて効率が悪い」と考える方は多いと思います。
もちろん、時間も費用もかかることは間違いありません。
ただ結果的に無駄な学びにお金も時間もかける方がリスクが高いという考えもあります。

コスパ・タイパ最適化の参考として、テックアカデミー卒業生がスクールを選んだ理由をご紹介します。

・困ったときに、質問や相談できる相手がいるため挫折しなかった
・プロとして必要なスキルのみを深く学べたので無駄がなかった
・副業案件の提供と納品までのサポートがあったので目的を達成できた

安価・短期間で広く浅く学んでも意味がありません。本当に自分の目的が達成できるか、それが重要です。
自分にどのスキルや学び方が合っているか、どんな学習方法かなど、お気軽に無料相談に参加してみませんか？

カウンセラー・現役のプロへ、何でも気軽に無料相談可能。 30分か60分お好きな時間が選べて、かつ3回まですべて無料でご利用できます。
無理な勧誘は一切ないので、お気軽にご参加ください。

今なら相談した方限定の割引・参加特典付き！無料相談はこちら

scikit-learnを使った機械学習(1)

それでは、scikit-learnを使った機械学習に挑戦してみましょう。

今回は、scikit-learnのトイデータセットにある「手書き数字データセット」を使います。

以下はanacondaを使った例で表示しています。

データセットの読み込み

はじめに、データセットを読み込み、どのようなデータが格納されているか、確認してみます。

以下のコードを入力して実行して下さい。

# scikit-learn ライブラリの読み込み
from sklearn import datasets

# 手書き文字セットを読み込む
digits = datasets.load_digits()

# どのようなデータか、確認してみる
import matplotlib.pyplot as plt
plt.matshow(digits.images[0], cmap="Greys")
plt.show()

実行結果は以下のようになります。

数字の0のように見えますね。

今回のプログラムでは、このような手書きの数字の画像データを使い、機械学習のモデルの学習と予測を行います。

訓練データとテストデータの準備

データセットには、「手書き数字の画像データ」と、それに対する「数字」が含まれます。

データを訓練データとテストデータに分け、訓練データで学習した結果を、テストデータで検証します。

# 画像データを配列にしたもの(numpy.ndarray型)
X = digits.data

# 画像データに対する数字(numpy.ndarray型)。ラベルと言う
y = digits.target

# 訓練データとテストデータに分ける
# 訓練データ ：偶数行
X_train, y_train = X[0::2], y[0::2]
# テストデータ：奇数行
X_test, y_test = X[1::2], y[1::2]

実行結果は特に表示されません。

学習

それでは、モデルに学習を行いましょう。

以下ではSVMというアルゴリズムを選択しています。

# 学習器の作成。SVMというアルゴリズムを選択
from sklearn import svm
clf = svm.SVC(gamma=0.001)

# 訓練データとラベルで学習
clf.fit(X_train, y_train)

実行結果は以下のようになります。

SVMというアルゴリズムに対してどのような設定（パラメータ）を行ったかが表示されています。

SVC(C=1.0, cache_size=200, class_weight=None, coef0=0.0,
    decision_function_shape='ovr', degree=3, gamma=0.001, kernel='rbf',
    max_iter=-1, probability=False, random_state=None, shrinking=True,
    tol=0.001, verbose=False)

モデルの評価

最後にモデルの学習結果を、テストデータを用いて評価します。

from sklearn import metrics

# テストデータで試した正解率を返す
accuracy = clf.score(X_test, y_test)
print(f"正解率{accuracy}")

# 学習済モデルを使ってテストデータを分類した結果を返す
predicted = clf.predict(X_test)

# 詳しいレポート
# precision(適合率): 選択した正解/選択した集合
# recall(再現率) : 選択した正解/全体の正解
# F-score(F値) : 適合率と再現率はトレードオフの関係にあるため
print("classification report")
print(metrics.classification_report(y_test, predicted))

実行結果は以下のようになります。

「1.00」や「0.99」の数字が適合率や再現率です。

かなり予測精度が高いことが分かります。

とても簡単に機械学習を試してみることができましたね。

scikit-learnを使った機械学習(2)

次に、機械学習のアルゴリズムを、ロジスティック回帰に変更してみましょう。

先ほどのソースコードの以下の部分を変更します。

# 学習器の作成。SVMというアルゴリズムを選択
from sklearn import svm
clf = svm.SVC(gamma=0.001)

上記の部分を以下のように変更します。

# 学習器の作成。ロジスティック回帰というアルゴリズムを選択
from sklearn.linear_model import LogisticRegression
clf = LogisticRegression()

他のコードは変更の必要がありません。

このように、scikit-learnではモデルを簡単に取り替えながら、機械学習を行うことができます。

こちらも、モデルの評価を実行しましょう。

実行結果は以下のようになります。

今回は、機械学習ライブラリのscikit-learnについて解説しました。

これからscikit-learnを勉強したい、機械学習を使って何か作ってみたいという方は最初に理解しておきたい内容でしょう。

この記事を監修してくれた方

太田和樹（おおたかずき）
ITベンチャー企業のPM兼エンジニア

普段は主に、Web系アプリケーション開発のプロジェクトマネージャーとプログラミング講師を行っている。守備範囲はフロントエンド、モバイル、サーバサイド、データサイエンティストと幅広い。その幅広い知見を生かして、複数の領域を組み合わせた新しい提案をするのが得意。

開発実績：画像認識技術を活用した駐車場混雑状況把握（実証実験）、音声認識を活用したヘルプデスク支援システム、Pepperを遠隔操作するアプリの開発、大規模基幹系システムの開発・導入マネジメント

地方在住。仕事のほとんどをリモートオフィスで行う。通勤で消耗する代わりに趣味のDIYや家庭菜園、家族との時間を楽しんでいる。

オンラインのプログラミングスクールTechAcademyでは、AIオンライン講座を開催しています。

AI（人工知能）の構築に必要な機械学習・ディープラーニングについて実践的に学習することができます。

現役エンジニアがパーソナルメンターとして受講生に1人ずつつき、マンツーマンのメンタリングで学習をサポートし、習得することが可能です。

プログラミングを独学で学習していて、このように感じた経験はないでしょうか？

・調べてもほしい情報が見つからない
・独学のスキルが実際の業務で通用するのか不安
・目標への学習プランがわからず、迷子になりそう

テックアカデミーでは、このような学習に不安を抱えている方へ、マンツーマンで相談できる機会を無料で提供しています。
30分間、オンラインでどんなことでも質問し放題です。

「受けてよかった」と感じていただけるようカウンセラーやエンジニア・デザイナーがあなたの相談に真摯に向き合います。

「自分に合っているか診断してほしい」
「漠然としているが話を聞いてみたい」
こんなささいな悩みでも大丈夫です。

無理な勧誘は一切ありませんので、まずはお気軽にご参加ください。
※体験用のカリキュラムも無料で配布いたします。（1週間限定）

今なら参加者限定の割引特典付き！無料相談を予約する

【事例付き】様々なサービスに活用！画像認識技術とは

デジタルカメラのスマイルシャッターや、iPhoneXのFaceIDなど、画像認識の技術は私達の身の回りで多く使われており、生活を便利に豊かにしてくれています。 ...

機械学習

深層学習のライブラリ！Kerasの使い方【初心者向け】

今回は、深層学習（ディープラーニング）のライブラリであるKerasについて解説します。 Kerasを学習することで、簡単なコードで機械学習のアルゴリズムの...

機械学習

ディープラーニングで欠かせない！ニューラルネットワークとは

今回は、ニューラルネットワークについて解説します。ニューラルネットワークの仕組みについて説明し、種類も紹介しているので、ぜひ理解しておきましょう。 ...

機械学習

グラフ描画ライブラリ！matplotlibの使い方【初心者向け】

今回は、Pythonのグラフ描画ライブラリであるmatplotlibについて解説します。 matplotlibを使うと、様々な種類のグラフを描画したり、イ...

機械学習

Pythonで使える！便利な機械学習ライブラリまとめ

今回は、便利なPythonで使える機械学習ライブラリをまとめて解説します。 Pythonで様々なライブラリを使用する際、Anacondaというソフトウェア...

機械学習

データ分析のライブラリ！Pandasとは【初心者向け】｜現役エンジニアが解説

今回は、Pythonのデータ解析用ライブラリであるPandasについて解説します。 Pandasを使うと、データの統計量を表示したり、グラフ化するなど、デ...

機械学習

あわせてよく読まれている記事

Pythonを利用してロジスティック回帰分析をする方法を現役エンジニアが解説【初心者向け】

Pythonを利用してロジスティック回帰分析をする方法について解説します。この記事では、Pythonでデータ解析や機械学習を使うときに必よく使われるscikit-learnと呼ばれるライブラリについて解説し、実際にscikit-learnを使った回帰分析を実践します。ぜひ参考にしてみてください。そもそもPythonについてよく分からないという方は、Pythonとは何なのか解説した記事を読むとさらに理解が深まります。なお本記事は、TechAcademyのオンラインブートキャンプPython講座の内容をもとに紹介しています。田島悠介今回は、Pythonに関する内容だね！大石ゆかりどういう内容でしょうか？田島悠介 Pythonを利用してロジスティック回帰分析をする方法について詳しく説明していくね！大石ゆかりお願いします！ scikit-learnライブラリとは？ “scikit-learn”は「サイキット・ラーン」という呼ばれるPythonのデータ解析と機械学習に特化したライブラリです。このライブラリを使うことでPythonがわかる人なら、誰でも比較的簡単に数行で機械学習を実践することができます。 scikit-learnライブラリはNumpやScipyといった行列計算に必要なライブラリ、matplotlibといったグラフなどのデータの可視化に便利なライブラリが組み込まれています。また、scikit-learnのチートシートを使えば、使いたいデータに合った機械学習がどれに当たるのか、専門的な知識がなくてもすぐにわかるようになっています。 scikit-learnの記事を読んでみると、scikit-learnについてさらによく分かると思うので、詳しく知りたい方は参照してみてください。 scikit-learnモジュールのインポート scikit-learnを使うには、まずは、Anacondaと呼ばれるPythonのパッケージ管理ツールを使ってインストールするか、pipコマンドを使ってscikit-learnをインストールしてください。 Anacondaを使う場合は、コマンドプロンプト(Windows)、もしくは、ターミナル(Mac)で conda install scikit-learn を実行します、 pipを使う場合は、condaの部分をpipに変えて、 pip install scikit-learn を実行すれば、scikit-learnのインストールができます。コマンドを実行して、 Successfully installed scikit-learn ... と表示されれば大丈夫です。. . . の部分はscikit-learnのバージョンが表示されます。あとは、Pythonのコードで、scikit-kearnを import sklearn でインポートすればPythonでscikit-learnを使うことができます。 [PR]機械学習で挫折しない学習方法を動画で公開中scikit-learnモジュールの使い方 scikit-learnにはデータ解析に便利なツールが数多く用意されています。主に、データセットデータの前処理機械学習モデルモデル評価、選択のための各ツールが提供されています。機械学習を試したい場合には、scikit-learnを使えば、データセットのダウンロードから性能の評価まで一貫して行なうことができるので、非常に便利です。データセットには、ボストンの住宅価格、アイリス(アヤメ)の花のデータ、手書き文字など様々なものがあります。データの前処理には、標準化、正規化などといったデータの加工に必要なツールがあります。そして、機械学習モデルには、「教師あり学習」と「教師なし学習」と呼ばれるの2種類のモデルがあり、チートシートを参照して複数のモデルの中から必要なモデルを選ぶことができます。 scikit-learnモジュールを利用してロジスティック回帰分析してみようそれでは、実際にscikit-learnを使ってみましょう。ここからは、Jupyterノートブックを用いることを想定しています。ですが、他の方法でも実践できるので使いたい環境で行なってください。今回は、ロジスティック回帰と呼ばれる機械学習を行います。ロジスティック回帰は教師あり学習に属するモデルで、クラス分類や確率の予測などに使われる分析手法です。ロジスティック回帰についての詳細な説明は省きますが、興味のある方はぜひ調べてみてください。Qiitaのこちらの記事などがオススメです。ではコードを書いていきましょう。まずは、scikit-learnと必要なツールをインポートします。 #必要なツールのインポート from sklearn.datasets import load_iris from sklearn.model_selection import train_test_split from sklearn.preprocessing import StandardScaler from sklearn.linear_model import LogisticRegression from sklearn.metrics import accuracy_score import pandas as pd load_irisはアイリスデータセットをダウンロードするのに使います。アイリスというのは、花の名前ですが、より細かい種類に別れています。このアイリスの種類を予測するのが今回の目標です。 train_test_split：データセットを訓練用とテスト用に分けるときに使います StandardScaler：データの前処理手法の一つである標準化で用います LogisticRegression：今回学習に使うロジスティック回帰というモデルです accuracy_score：モデルの性能を評価するとき正解率を計算することに使います他にもここでは、pandasというライブラリをインポートしています。Pandasを用いることでデータを扱いやすくなっています。続いて、 iris_data = load_iris() iris_df = pd.DataFrame(iris_data.data, columns=iris_data.feature_names) iris_df["target"] = iris_data.target とします。ここでは、アイリスデータセットを読み込み、pandasでデータフレームというデータ型に変換し、データフレームの”target”列に、予測する値となるラベルとして、花の種類を追加しています。次に、 #データセットをテスト用と訓練用に分ける x_train, x_test, y_train, y_test = train_test_split( iris_df.iloc[:, 0:4], iris_df.iloc[:, 4],

Python

徹底解説！scikit-learnを使った教師あり・なし学習とは

今回は、教師あり学習と教師なし学習について解説します。ぜひ、この記事を参考に、教師あり・なし学習にチャレンジしてみてください。なお本記事は、TechAcademyのオンラインブートキャンプ、AI講座とデータサイエンス講座の内容をもとに作成しています。田島悠介今回は、scikit-learnに関する内容だね！大石ゆかりどういう内容でしょうか？田島悠介 scikit-learnを使った教師あり・なし学習について詳しく説明していくね！大石ゆかりお願いします！教師あり学習とは教師あり学習とは、正解やより良い方法を膨大なデータとして用意しておき、その正解を元にコンピューターが学習することで、コンピューター自身を成長させる学習方法です。 Googleで開発されたAlphaGoという深層学習（ディープラーニング）により、世界最高峰のプロ囲碁棋士に勝利したプログラムがあります。このAlphaGoのうち、第3世代までの、AlphaGo Masterは教師あり学習を元に、自己学習を繰り返した結果、プロ棋士に勝てるようになりました。 [PR]機械学習で挫折しない学習方法を動画で公開中教師あり学習の手法ここでは、scikit-learnを使用した教師あり学習の手法とその表示グラフを紹介します。 Liner Model(線形回帰) 画像引用：http://scikit-learn.org Logistic Regression(ロジスティック回帰) 画像引用：http://scikit-learn.org Support Vector Regression(SVM) 画像引用：http://scikit-learn.org Perceptron(パーセプトロン) 画像引用：http://scikit-learn.org Decision Tree Regression(決定木回帰) 画像引用：http://scikit-learn.org Rondom Forests(ランダムフォレスト) 画像引用：http://scikit-learn.org Ada Boost 画像引用：http://scikit-learn.org KNeighbors 画像引用：http://scikit-learn.org Neural Network(ニューラルネットワーク) 画像引用：http://scikit-learn.org 教師なし学習教師なし学習といっても、最初の段階で教師あり学習のように、正解の大量のデータを教師として学習する部分が無いだけであり、基本的なルールは学習する必要があります。基本ルール部分を学びますが、その部分は教師として考えないという理論です。教師なし学習では、基本ルール内で勝つために、自分自身と戦い続けることで、性能を上げていきます。 AlphaGo Masterの次に開発されたAlphaGo Zeroは、教師なし学習を元に発展しました。 AlphaGo Zero では、ルール以外の知識は全く与えずに強化学習を行うことで、40日後に、AlphaGo Masterに89勝11敗しました。つまり、AlphaGo Zeroは世界最強の囲碁棋士に40日間で成長することができたということです。ここでは、scikit-learnを使用した教師なし学習の手法とその表示グラフを紹介します。 K-means(k平均法) 画像引用：http://scikit-learn.org PCA 画像引用：http://scikit-learn.org コラムコスパとタイパ、両方結果的に良くなる良くなる学び方とは？「スクールは高いし時間も縛られて効率が悪い」と考える方は多いと思います。もちろん、時間も費用もかかることは間違いありません。ただ結果的に無駄な学びにお金も時間もかける方がリスクが高いという考えもあります。

機械学習

【徹底解説】機械学習（マシンラーニング）とは！まずはここから理解しよう

現在、幅広い業種で人工知能（AI）が使われています。またニュースや新聞でも、人工知能の報道を目にしない日はありません。このような状況の中、人工知能に興味・関心を寄せるエンジニアが増えてきています。また企業においても、人工知能のスキルを持ったエンジニアの採用が活発に行われています。機械学習は、その人工知能の中核をなすテクノロジーであり、現代のエンジニアにとっては、ほぼ必須の知識とも言えるでしょう。この記事では、機械学習の概要、各種手法についての解説、ディープラーニングとの違いなどを紹介します。機械学習とはどのような技術か、実際にどのようなサービスに使われているか、ぜひ知っておきましょう。なお本記事は、TechAcademyのAIオンライン講座の内容をもとに作成しています。目次機械学習とは教師あり学習とは教師なし学習とは強化学習とはディープラーニングとの違いとは機械学習の代表的なライブラリ田島悠介今回は機械学習について解説するよ。大石ゆかり田島メンター！機械学習って最近よく耳にしますね。具体的にどのような技術なんですか〜？田島悠介人工知能の中核をなす技術の1つなんだ。詳しく見ていこう。大石ゆかり分かりました！機械学習とは人工知能（AI）とは、「コンピューターが物事やルールを理解するための仕組み」の様々な技術の総称です。コンピューターが物事やルールを理解するためには、人間が学習するプロセスと同様に、情報を与えて物事の特徴やルールを学習させなくてはなりません。この学習方法のことを機械学習（マシンラーニング）と呼びます。機械学習は、従来のプログラミングと違い、開発者が全ての動作をプログラミングするわけではありません。開発者はコンピューターにデータと分け方を与えます。コンピューターはその情報を元に、データの特徴を学習し、新たなデータに対する正解を予測します。例えば、以下のような手書き数字の画像データがあったとします。 MNIST 開発者は、この画像データに対する正解、「0」や「1」といった数値をペアで与えます。コンピューターは、画像データと正解の数値をもとに、数値毎の画像データの特徴を学習します。例えば「画像データのどの位置が濃い」といった特徴です。この学習の成果を「モデル」と言います。 tensorflow.org また、このことは、機械学習はデータの特徴をモデル化（数式化）できることを前提としている、とも捉えることができますね。そして、このモデルをもとに、新たな画像データの正解を「予測」します。これが機械学習の大まかな流れです。なお、人工知能の精度を高めるには、大量のデータでコンピューターに学習させることが必要です。2000年代に入り、高速・高性能なコンピューターが容易に入手できるようになりました。また、インターネットの発展により、従来より格段に多くのデータを収集できるようになりました。このことが、現代の機械学習の技術を支えています。それでは、次に機械学習の種類について確認して行きましょう。機械学習は大きく「教師あり学習」、「教師なし学習」、「強化学習」の3つに分けることができます。 [PR]機械学習で挫折しない学習方法を動画で公開中教師あり学習教師あり学習とは、データと正解を与えて、コンピューターに学習させる方法です。前出の手書き数字の学習例も教師あり学習です。教師あり学習は、分類問題と回帰問題に分けることができます。分類問題分類問題は、データを種類ごとに分けることを目標とします。例えば画像データを与えて花の種類を予測する、音声データを与えて文字を予測する、これらは分類問題となります。 Iris_flower_data_set 回帰問題回帰問題は、データの特徴から、新しいデータに対する値を予測することを目標とします。例えば株価の予測や、天気予報、これらは回帰問題となります。教師あり学習の手法次に代表的な教師あり学習の手法について紹介します。線形回帰、線形分類データを直線で予測するのが線形回帰、直線で分けるのが線形分類です。線形回帰（分類）は、学習も予測も高速で、モデルをシンプルに構築できる特徴があります。また古くから研究されており、以外に線形回帰（分類）できるデータは多いため、まず最初に検討してみるべき機械学習の手法の1つでしょう。 Wikipedia SVM(サポートベクターマシン) SVMは線形回帰（分類）の手法の1つです。線形回帰（分類）は直線で分類を行うのに対し、SVMは超平面分離定理という考え方をもとに、空間をねじれさせることで、最終的に曲線で回帰（分類）を行う手法です。 SVMは優れた機械学習の手法の1つで、ディープラーニングが登場するまでは、とても多く使われていました。モデルをシンプルに構築出来、精度も良いことから、現在でも多く使われている手法です。決定木木構造のモデルにより分類する手法です。決定木は機械学習の手法としてだけでなく、意思決定を助けるためのツールとしてもよく用いられます。他の手法に比べて、人間が見てもモデルを理解しやすいことから、リスクマネジメントのような、人間の判断が必要な分野の予測によく用いられます。 Wikipedia ニューラルネットワークニューラルネットワークは、重回帰分析（多変数解析）の手法の1つです。人の神経回路をモデルとしており、機械学習の手法としては、最も古く(1950年代)から研究された来たものの1つです。 Wikipedia ロジスティック回帰「回帰」と書いていますが「分類」の手法です。ニューラルネットワークのモデルの一部を変更（活性化関数をシグモイド関数に変更）したものです。ディープラーニングの1層版です。ディープラーニングはこのロジスティック回帰を複数層組み合わせたモデルです。教師なし学習とは教師なし学習とは、データだけ与えて、コンピューターにデータをグループ化（クラスタリング）させる方法です。例えば通販サイトで商品を購入した時「この商品を買った人はこんな商品も買っています」という文章を見たことは無いでしょうか。これは、コンピューターに「購買履歴」のデータを与えることで、教師なし学習により「商品Aを買った人は、商品Bを買う確率が高い」というようにユーザをグループ化することで実現しています。また、教師なし学習には主成分分析といって、データ分析をより行いやすくするための方法もあります。教師なし学習には以下のような手法があります。 k平均法クラスタ（分類するグループ）の数を決め、クラスタの数分、ランダムな点を起きます。各データは一番近い点に所属させます。所属が決まったら、クラスタに属するデータの中心を新しい点とします。これを繰り返すことでデータをグループ化します。主成分分析機械学習でモデルを構築する際、その前段階として、データの次元（説明変数の数）を削減するために用いられます。変数同士の相関度合いと寄与率をもとに、複数の変数を相関の少ない「主成分」と呼ばれる変数にまとめる手法です。これにより、機械学習のモデルをシンプルに構築することができるようになります。コラムコスパとタイパ、両方結果的に良くなる良くなる学び方とは？「スクールは高いし時間も縛られて効率が悪い」と考える方は多いと思います。もちろん、時間も費用もかかることは間違いありません。ただ結果的に無駄な学びにお金も時間もかける方がリスクが高いという考えもあります。コスパ・タイパ最適化の参考として、テックアカデミー卒業生がスクールを選んだ理由をご紹介します。

機械学習

Pythonによるk-meansクラスタリングの実装方法を現役エンジニアが解説【初心者向け】

Pythonによるk-meansクラスタリングの実装方法について、テックアカデミーのメンター（現役エンジニア）が実際のコードを使用して初心者向けに解説します。目次scikit-learnとはscikit-learnを利用するにはscikit-learnの主な機能scikit-learnを使った機械学習(1)scikit-learnを使った機械学習(2) そもそもPythonについてよく分からないという方は、Pythonとは何なのか解説した記事を読むとさらに理解が深まります。田島悠介今回は、Pythonに関する内容だね！大石ゆかりどういう内容でしょうか？田島悠介 Pythonによるk-meansクラスタリングの実装方法について詳しく説明していくね！大石ゆかりお願いします！ 1. k-meansとは？ k-meansとはクラスタリングの手法の一つで、非階層型クラスタリングのアルゴリズムです。クラスタの平均を用いて、与えられたクラスタ数 k個に分類することからこの名前が付けられました。k平均法と呼ばれることもあります。非階層型クラスタリングとは、異なる性質の集団の中から似た特徴を持ったものでクラスタを行う手法のことです。階層型と異なり、階層的な構造を持たず、予め決められたクラスタ数でサンプルを分類します。サンプルが大量にある正規分布のデータに対して、データをグループ分けを行う際に効果的です。また、クラスタリングは機械学習の手法一つでアルゴリズムから特徴を見つけて分類を行うことから、「教師なし学習」となります。 2. NumpyのインストールここからはPythonでクラスタリングを行うための環境をセッティングしていきます。まずは、配列の演算を扱うためのライブラリとしてNumpyをインストールしていきます。以下のコマンドを実行してインストールします。 pip install numpy [PR]機械学習で挫折しない学習方法を動画で公開中3. Pandasのインストール続いて、サンプルデータのファイルを読み込み、データフレームの形式に変換するためにPandasをインストールします。 pip install pandas コラムコスパとタイパ、両方結果的に良くなる良くなる学び方とは？「スクールは高いし時間も縛られて効率が悪い」と考える方は多いと思います。もちろん、時間も費用もかかることは間違いありません。ただ結果的に無駄な学びにお金も時間もかける方がリスクが高いという考えもあります。コスパ・タイパ最適化の参考として、テックアカデミー卒業生がスクールを選んだ理由

Python

初心者向け！機械学習を学ぶのにおすすめの本10選

今回は、機械学習を学ぶのにおすすめの本をまとめています。機械学習やディープラーニングを初めて学ぶ人におすすめの本、仕事でこれから使う人におすすめの本を紹介しています。書籍によって概念中心のもの、実践中心のものなど特徴が違うので、自分の好みに合った本を見つけてみてください。なお本記事は、TechAcademyのAIオンライン講座の内容をもとに作成しています。まず最初に、非エンジニア向けのおすすめ本を紹介します。仕事ではじめる機械学習仕事ではじめる機械学習特徴プロジェクトのはじめ方や、システム構成、学習のためのリソースの収集方法を中心にビジネスサイドの視点を踏まえた特徴があります。対象者深層学習も画像認識も自然言語処理も機械学習も全て含めて人工知能という1つのソフトウェアを使うと簡単に解決できるという思想の上司から、「人工知能のプロジェクト立ち上げるからあとよろしく」と言われて、現場を任された担当者向けです。学習できること最初に機械学習プロジェクトの流れを理解した上で、現場のシステムにおける機械学習の問題点を理解し、その対処方法を考えていきます。アルゴリズムについての学習では、例えば、パーセプトロン・ロジスティック回帰・SVM・ニューラルネットワーク・k-NN・決定木・ランダムフォレスト・GBDTを学習します。実装部分では、映画の推薦システムをつくるという内容で、実際に機械学習を利用した実装の解説があります。 60分でわかる! 機械学習&ディープラーニング超入門 60分でわかる! 機械学習&ディープラーニング超入門 (60分でわかる! IT知識) 特徴新聞を読むような感覚で機械学習とディープラーニングについて理解できます。対象者機械学習とディープラーニングを使うとどんなことができるのか全体像を理解したいビジネスマン向け学習できること自分で機械学習や人工知能について学習したい方だけでなく、だれかに説明することが出来るレベルの分かりやすい解説テキストとして学習利用することができます。 [PR]機械学習で挫折しない学習方法を動画で公開中やさしく学ぶ機械学習を理解するための数学のきほんアヤノ＆ミオと一緒に学ぶ機械学習の理論と数学、実装までやさしく学ぶ機械学習を理解するための数学のきほん ~アヤノ&ミオと一緒に学ぶ機械学習の理論と数学、実装まで~ 特徴忘れかけた高校卒業程度の数学の知識でも読むことが出来るという、機械学習というタイトル本の中でも抜きん出て安心感の有る文系向け機械学習解説本です。著者は、LINE Fukuoka株式会社に勤務しているデータエンジニアです。対象者機械学習に興味があるけど、数式が出てきた時点で意味がわからなくなってしまうという方向けです。学習できること基本的な機械学習の内容と、必要な数学の復習、PythonとNumPyの基礎について学習できます。ここから先はエンジニア向けの機械学習書籍です。 Pythonではじめる機械学習 ―scikit-learnで学ぶ特徴量エンジニアリングと機械学習の基礎 Pythonではじめる機械学習 ―scikit-learnで学ぶ特徴量エンジニアリングと機械学習の基礎特徴 scikit-learnのリリースマネージャである筆者が、機械学習の基礎だけでなく、「特徴量エンジニアリング」と「モデルの評価と改善」について詳しく解説している特徴があります。ここでは網羅できないほど多岐にわたる開発手法に関して、ちょうどよい掘り下げ方で解説してある点が特徴的です。対象者「特徴量エンジニアリング」と「モデルの評価と改善」に関しても関心があるエンジニア向け。学習できること scikit-learnと関連ライブラリの環境設定から、教師あり学習や、教師なし学習についても、その種類とメリット・デメリットに関して細かく解説してあります。「特徴量エンジニアリング」、「モデルの評価と改善」、「アルゴリズムチェーンとパイプライン」、「テキストデータの処理」等実践的な内容も学習できます。コラムコスパとタイパ、両方結果的に良くなる良くなる学び方とは？「スクールは高いし時間も縛られて効率が悪い」と考える方は多いと思います。もちろん、時間も費用もかかることは間違いありません。ただ結果的に無駄な学びにお金も時間もかける方がリスクが高いという考えもあります。

機械学習

Pythonでランダムフォレストを扱う方法を現役エンジニアが解説【初心者向け】

Pythonでランダムフォレストを扱う方法について解説します。そもそもPythonについてよく分からないという方は、Pythonとは何なのか解説した記事を読むとさらに理解が深まります。なお本記事は、TechAcademyのオンラインブートキャンプPython講座の内容をもとに紹介しています。田島悠介今回は、Pythonに関する内容だね！大石ゆかりどういう内容でしょうか？田島悠介 Pythonでランダムフォレストを扱う方法について詳しく説明していくね！大石ゆかりお願いします！この記事では、ランダムフォレストと呼ばれる教師あり機械学習手法について解説していきます。機械学習に便利なライブラリであるscikit-learnを使って実際にコードを表示するのでより深く理解できるでしょう。ランダムフォレストとは？ランダムフォレストというのは、決定木をたくさん使った機械学習手法の一つです。そのため、ランダムフォレストを理解する場合、決定木についての理解を深めましょう。決定木は、簡単に言えば、Yes、Noでデータを分けていくことで予測を行う手法です。例を見てみましょう。図に示したのは、「海水浴に行くべきか？」という問題です。この図では、「気温は25℃以上か？」という質問から始まります。 Noの場合は気温が低すぎるので、「海水浴に行かない」という答えを出し、Yesの場合は次の「波は低いか？」という質問に移ります。このように順々に質問に答えていくことで、最終的に「海水浴に行くべきか？」という問題に対する答えを出すのが決定木です。ランダムフォレストはこの決定木を複数用意して多数決で答えを出す機械学習のアルゴリズムのことです。複数の決定木を使って答えを下すことから、ランダムフォレストはアンサンブル学習という手法の一つでもあります。アンサンブル学習は、「三人寄れば文殊の知恵」ということわざのように、一人の人間が判断を下すよりも複数人の多数決で判断を下したほうが良いという考え方に基づいたアルゴリズムです。これ以上の詳細な説明は省きます。ランダムフォレストは、複数の学習機を使って最終的な判断を下すものであるということがポイントなので覚えておくと良いでしょう。ランダムフォレストの使い方 Scikit-learnと呼ばれるPythonのライブラリを使うことでランダムフォレストを簡単に使用することが可能です。では、scikit-learnをインストールしてください。 Windowsの場合はコマンドプロンプトで、Macの場合はターミナルを開き、anacondaを使っている人は、 conda install scikit-learn そうでない人は、 pip install scikit-learn をコマンドプロンプトで実行することでscikit-learnをインストールし使用してみましょう。あとは、学習に使いたいデータを用意することでランダムフォレストを使うことができます。 [PR]機械学習で挫折しない学習方法を動画で公開中ランダムフォレストによるクラス分類に挑戦してみようここでは、実際にランダムフォレストを使って分類問題にチャレンジしてみてください。コードの実行はJupyter ノートブックを使って行いましょう。まずは、ランダムフォレストとpandas、データセット分割のための関数をインポートします。 from sklearn.ensemble import RandomForestClassifier import pandas as pd from sklearn.model_selection import train_test_split 学習に使うデータセットは、ワインのデータです。 df = pd.read_csv('https://archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/winequality-white.csv',sep=";",encoding="utf-8") ダウンロードできたか確認してみましょう。 df.head() データフレーム型の変数のhead()メソッドを実行すると最初の5行が表示されます。 qualityがワインの等級で、これを予測するのが今回の目標です。次に、データセットを学習に使う特徴量と予測するラベルに分けて、訓練用とテスト用に7：3の割合で分割します。 train_x = df.drop(['quality'], axis=1) train_y = df['quality'] (train_x, test_x ,train_y, test_y) = train_test_split(train_x, train_y, test_size = 0.3) そして、ランダムフォレストを実行しましょう。 clfはclassifierの略です。 clf = RandomForestClassifier(max_depth=30, n_estimators=30, random_state=42) clf.fit(train_x, train_y)＃訓練用データで学習学習モデルのfit()メソッドを使用し、学習することができます。これで学習はできたので、モデルの性能を検証してみましょう。テスト用データのワインの等級を予測し、答えと比較することで正解率を計算します。 y_pred = clf.predict(test_x)＃テスト用データの予測 accuracy = accuracy_score(test_y, y_pred) print('Accuracy: {}'.format(accuracy)) これを実行すると、 Accuracy: 0.6659863945578232 のように、正解率が表示されます。 66%程度なので、もう少し工夫が必要なことがわかるでしょう。実際の機械学習では、データに処理を施したり、学習モデルのパラメータを調節することで精度を上げていきます。この記事ではランダムフォレストについて解説し、実際にクラス分類問題に適用しました。ランダムフォレストは比較的使いやすいアルゴリズムであるため、他の問題にも使用してみてください。監修してくれたメンターメンターOS AIプログラミングを使って開発を行う。プログラミング歴は約3年でPythonは割と得意。好きな物理理論は一般相対性理論で動物も好き。大石ゆかり Pythonでランダムフォレストを扱う方法がよくわかって良かったです！田島悠介ゆかりちゃん、これからも分からないことがあったら質問してね！大石ゆかり分かりました。ありがとうございます！ TechAcademyでは、初心者でもPythonを使った人工知能（AI）や機械学習の基礎を習得できるオンラインブートキャンプPython講座を開催しています。挫折しない学習方法を知れる説明動画や、現役エンジニアとのビデオ通話とチャットサポート、学習用カリキュラムを体験できる無料体験も実施しているので、ぜひ参加してみてください。プログラミングを独学で学習していて、このように感じた経験はないでしょうか？

Python

記事を検索

ニュース

インタビュー

テクノロジー

キャリア

お問い合わせ

目次

scikit-learnとは

scikit-learnを利用するには

scikit-learnの主な機能

分類（classification）

SGD（stochastic gradient descent）

カーネル近似

Linear SVC

k近傍法

回帰（regression）

SGD（stochastic gradient descent）

LASSO、ElasticNet

Ridge、Liner SVR

SVR（ガウスカーネル）、Ensemble

クラスタリング（clustering）

KMeans

スペクトラルクラスタリング、GMM

MeanShift、VBGMM

その他の機能

次元削減

ハイパーパラメータの最適化

scikit-learnを使った機械学習(1)

データセットの読み込み

訓練データとテストデータの準備

学習

モデルの評価

scikit-learnを使った機械学習(2)

記事を検索

関連するキーワード

関連する記事

あわせてよく読まれている記事

TechAcademyから 現役エンジニアの方へ お知らせ

TechAcademyから
現役エンジニアの方へ
お知らせ