Python

PythonでSVMを実装する方法を現役エンジニアが解説【初心者向け】

初心者向けにPythonでSVMを実装する方法について現役エンジニアが解説しています。SVMとはサポートベクターマシンの略で、機械学習のモデルの1つです。分類または回帰分析を行うことが出来ます。SVMが使われる例やSVMで分類モデルを構築する方法を解説します。

テックアカデミーマガジンは受講者数No.1のプログラミングスクール「テックアカデミー」が運営。初心者向けにプロが解説した記事を公開中。現役エンジニアの方はこちらをご覧ください。 ※ アンケートモニター提供元：GMOリサーチ株式会社　調査期間：2021年8月12日～8月16日　調査対象：2020年8月以降にプログラミングスクールを受講した18～80歳の男女1,000名　調査手法：インターネット調査

PythonでSVMを実装する方法について、TechAcademyのメンター（現役エンジニア）が実際のコードを使用して、初心者向けに解説します。

Pythonについてそもそもよく分からないという方は、Pythonとは何なのか解説した記事を読むとさらに理解が深まります。

なお本記事は、TechAcademyのオンラインブートキャンプ、Python講座の内容をもとに紹介しています。

今回は、Pythonに関する内容だね！

どういう内容でしょうか？

PythonでSVMを実装する方法について詳しく説明していくね！

お願いします！

SVMとは

SVMとはサポートベクターマシン(Support Vector Machine)の略です。

機械学習のモデルの1つで、分類または回帰分析を行うことが出来ます。以下の図のように境界線から「最も近いデータまでの距離」を最大にするよう、パターン識別を行うモデルです。

Wikipedia サポートベクターマシンより

SVMはディープラーニング登場前は最強の機械学習モデルとして君臨していました。現在でも軽量かつ性能の良いモデルとして利用されています。

[PR] Pythonで挫折しない学習方法を動画で公開中

scikit-learnとは

scikit-learnはPythonの機械学習用モジュールです。

SVMをはじめ、多くの機械学習のモデルが含まれています。scikit-learn の機械学習モデルの特徴として、学習や予測の関数名が統一されていることが上げられます。これにより様々なモデルの評価を容易に行えるようになっています。

scikit-learnのSVMモデルについて、詳しくは公式サイトも参考にしてください。

sklearn.svm.Support Vector Machines

実際に書いてみよう

今回のサンプルプログラムではSVMで分類モデルを構築します。分類モデルにはsklearn.svm.SVCを使用します。実行は Jupyter Notebook で行っています。

sklearn.svm.SVC

はじめに分類用のデータを読み込みます。今回はscikit-learnに添付されているirisデータセットを使用しています。

import numpy as np
import pandas as pd
from sklearn.datasets import load_iris

iris = load_iris()

dataset = pd.DataFrame(data = iris['data'], columns = iris['feature_names'])
dataset['species'] = iris['target']
dataset.head()

実行結果は以下のとおりです。iris データセットは機械学習で多く用いられる有名なデータセットで、あやめの花びらの大きさと品種が格納されています。今回は花びらの大きさから品種(species)を予測するモデルを構築します。

irisデータセットをを目的変数と説明変数に分けます。目的変数Yが予測対象(species)、説明変数Xが花びらの大きさとなります。さらに目的変数と説明変数を学習データとテストデータに分割します。

# 目的変数(Y)、説明変数(X)
Y = np.array(dataset['species'])
X = np.array(dataset[iris['feature_names']])

# データの分割
from sklearn.model_selection import train_test_split
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.3, random_state=0)

モデルを構築し、 fit() 関数で学習を行います。

from sklearn.svm import SVC
model = SVC(gamma='scale')
model.fit(X_train, Y_train)

学習済のモデルで予測を行ってみましょう。予測は predict() 関数で行います。

Y_pred = model.predict(X_test)

print(Y_test[:10])
print(Y_pred[:10])

実行結果は以下のとおりです。高い精度で予測が行われています。

[2 1 0 2 0 2 0 1 1 1]
[2 1 0 2 0 2 0 1 1 1]

コラム

コスパとタイパ、両方結果的に良くなる良くなる学び方とは？

「スクールは高いし時間も縛られて効率が悪い」と考える方は多いと思います。
もちろん、時間も費用もかかることは間違いありません。
ただ結果的に無駄な学びにお金も時間もかける方がリスクが高いという考えもあります。

コスパ・タイパ最適化の参考として、テックアカデミー卒業生がスクールを選んだ理由をご紹介します。

・困ったときに、質問や相談できる相手がいるため挫折しなかった
・プロとして必要なスキルのみを深く学べたので無駄がなかった
・副業案件の提供と納品までのサポートがあったので目的を達成できた

安価・短期間で広く浅く学んでも意味がありません。本当に自分の目的が達成できるか、それが重要です。
自分にどのスキルや学び方が合っているか、どんな学習方法かなど、お気軽に無料相談に参加してみませんか？

カウンセラー・現役のプロへ、何でも気軽に無料相談可能。 30分か60分お好きな時間が選べて、かつ3回まですべて無料でご利用できます。
無理な勧誘は一切ないので、お気軽にご参加ください。

今なら相談した方限定の割引・参加特典付き！無料相談はこちら

まとめ

今回の記事ではPythonでSVMを実装する方法を学習しました。

監修してくれたメンター

太田和樹（おおたかずき）

ITベンチャー企業のPM兼エンジニア。

普段は主に、Web系アプリケーション開発のプロジェクトマネージャーとプログラミング講師を行っている。守備範囲はフロントエンド、モバイル、サーバサイド、データサイエンティストと幅広い。その幅広い知見を生かして、複数の領域を組み合わせた新しい提案をするのが得意。

開発実績：画像認識技術を活用した駐車場混雑状況把握（実証実験）、音声認識を活用したヘルプデスク支援システム、Pepperを遠隔操作するアプリの開発、大規模基幹系システムの開発・導入マネジメント。

地方在住。仕事のほとんどをリモートオフィスで行う。通勤で消耗する代わりに趣味のDIYや家庭菜園、家族との時間を楽しんでいる。

内容分かりやすくて良かったです！

ゆかりちゃんも分からないことがあったら質問してね！

分かりました。ありがとうございます！

TechAcademyでは、初心者でも、Pythonを使った人工知能（AI）や機械学習の基礎を習得できる、オンラインブートキャンプを開催しています。

また、現役エンジニアから学べる無料体験も実施しているので、ぜひ参加してみてください。

プログラミングを独学で学習していて、このように感じた経験はないでしょうか？

・調べてもほしい情報が見つからない
・独学のスキルが実際の業務で通用するのか不安
・目標への学習プランがわからず、迷子になりそう

テックアカデミーでは、このような学習に不安を抱えている方へ、マンツーマンで相談できる機会を無料で提供しています。
30分間、オンラインでどんなことでも質問し放題です。

「受けてよかった」と感じていただけるようカウンセラーやエンジニア・デザイナーがあなたの相談に真摯に向き合います。

「自分に合っているか診断してほしい」
「漠然としているが話を聞いてみたい」
こんなささいな悩みでも大丈夫です。

無理な勧誘は一切ありませんので、まずはお気軽にご参加ください。
※体験用のカリキュラムも無料で配布いたします。（1週間限定）

今なら参加者限定の割引特典付き！無料相談を予約する

Python MIPについて現役エンジニアが解説【初心者向け】

Python MIPについて、TechAcademyのメンター（現役エンジニア）が実際のコードを使用して初心者向けに解説します。そもそもPythonについてよく...

Python

Python学習に最適な練習問題を現役エンジニアが解説【初心者向け】

Python学習に最適な練習問題について解説します。そもそもPythonについてよく分からないという方は、Pythonとは何なのか解説した記事を読むとさ...

Python

PythonでMatplotlibで作成したグラフを保存する方法を現役エンジニアが解説【初心者向け】

PythonでMatplotlibで作成したグラフを保存する方法について解説します。目次 Matplotlibで作成したグラフ...

Python

Pythonで素数判定のプログラムを作る方法を現役エンジニアが解説【初心者向け】

Pythonで素数判定のプログラムを作る方法を行う方法について解説します。そもそもPythonについてよく分からないという方は、Pythonとは何なのか...

Python

Pythonでdecimalを使う方法【初心者向け】

Pythonでdecimalを使う方法について解説します。そもそもPythonについてよく分からないという方は、Pythonとは何なのか解説した記事を読...

Python

PythonでExcelの操作を自動化する方法を現役エンジニアが解説【初心者向け】

PythonでExcelの操作を自動化する方法について、テックアカデミーのメンター（現役エンジニア）が実際のコードを使用して初心者向けに解説します。 ...

Python

あわせてよく読まれている記事

今回は、時系列分析について解説します。時系列の種類や時系列データのモデルについて紹介しているので、どういった分析の仕方があるのかぜひ知っておきましょう。なお本記事は、TechAcademyのオンラインブートキャンプ、AI講座とデータサイエンス講座の内容をもとに作成しています。田島悠介今回は、機械学習に関する内容だね！大石ゆかりどういう内容でしょうか？田島悠介時系列分析について詳しく説明していくね！大石ゆかりお願いします！時系列分析とは時系列分析とは時間の項目を軸に分析を行うことです。時系列分析は英語で、Time Series Analysisと言います。時系列分析は、時系列解析と約されることもあり、時系列分析について調べる場合は、時系列解析についてもキーワードとして調べると良いでしょう。時系列分析は、時系列データを元に、何故そのような時系列になってしまったかを理論的に分析するものです。この、何故そのような時系列になってしまったかという点を、時系列分析ではデータポイント列の背後にある理論と言います。代表的な利用方法としては、完全失業率や住宅価格の推移を元に株式相場の見通しを伝える経済ニュースが日々報道されています。時系列データとは時系列データとは、時系列分析で使用するデータのことです。時系列データは、一定間隔に基づいて集計され、統計学上の相関関係が認められるものをいいます。身近な時系列データとしては、総務省統計局のページから閲覧できる総合統計書があります。時系列データのモデルには様々なものがあります。モデルとは、考え方や理論のことを意味します。 [PR] Pythonで挫折しない学習方法を動画で公開中時系列の種類時系列には定常時系列と非定常時系列があります。実際に使用されるデータは、非定常時系列もののが多いです。そして、実際に解析する際には、非定常時系列データを定常時系列データに変換して解析することが多いです。定常時系列定常時系列とは、定常的な時系列のデータを意味する。定常性とは、確率の性質が一定であり、様々な時点に影響されないことを意味します。非定常時系列非定常時系列とは、非定常的な時系列データを意味する。非定常性とは、定常性が無いことで、確率の性質が一定しておらず、様々な時点の値に影響されるということを意味します。つまり、影響される要素が多いために解析する必要性があるということでもあります。代表的な時系列データのモデル時系列データにはいくつかのモデルが存在します。自己回帰モデル画像引用：wikipedia 自己回帰モデルは、英語でAuto Regression modelと呼ばれ、ARと省略されます。定常時系列データを使用します。現在の値は、過去の値に影響されて記述されるというモデルです。株式相場で、今日値上がりすれば、明日も値上がりするだろ言うというイメージです。自己回帰モデルは、自己回帰移動平均モデル（ARMAモデル）の特殊な例の1つです。また、自己回帰モデルは、ベクトル自己回帰モデル（VARモデル）の特殊な例の1つでもあります。自己回帰モデルは、時間対してある変数をある確率で分布したものを線形で表示します。変数とは、ある値を入れるは箱のようなものです。変数に入れられた日々の値を線形にする例として、株式相場のグラフがあります。移動平均モデル画像引用：wikipedia 移動平均モデルとは、英語でMoving Average modelと言いMAと省略されます。定常時系列データを使用します。移動平均モデルは、現在の値はq個前までの過去のノイズの重み付き和と、現在のノイズとに、平均値を加算したものとして考えるモデルです。つまり、過去のノイズが大きかった場合、現在の値もθの影響を受け変化するということになります。そして、現在の値が過去の移動平均で表現されることから移動平均モデルと言われます。自己回帰移動平均モデル画像引用：wikipedia 自己回帰移動平均モデルとは、英語でAutoregressive moving average modelと言い、ARMAと省略されます。定常時系列データを使用します。自己回帰移動平均モデルは、自己回帰モデルと移動平均モデルを組み合わせたモデルです。つまり、自己回帰モデルの現在の値は、過去の値に影響されて記述されるというモデルと、移動平均モデルの、現在の値はq個前までの過去のノイズの重み付き和と、現在のノイズとに、平均値を加算したものとして考えるモデルを組み合わせることで現在の値を記述するということです。自己回帰移動平均モデルの図式でいうと、p個以前の過去の値とq個以前のノイズの値を組み合わせることで現在の値を記述しています。和分過程和分過程とは、英語でIntegratedと言い、Iと省略されます。和分過程とは、以前の値に現在の値を加算することを意味します。株価などの金融取引に利用するデータで利用する時系列では、和分を利用します。ただ、自己回帰和分移動平均モデルで利用される場合は、和分次数を1と考えることが一般的です。次数とは、何かの指標を求める際に使用する自然数です。指標とは、物事を判断する際に目印となるものです。ここでは自然数を目印にします。自然数とは、正の整数を意味します。自己回帰和分移動平均モデル画像引用：wikipedia 自己回帰和分移動平均モデルとは、英語でAutoregressive Integrated Moving Averageと言い、ARIMAと省略されます。非定常時系列データを使用します。自己回帰和文移動平均モデルは次の3つのモデルを組み合わせてできています。自己回帰モデル（Autoregressive model ）移動平均モデル（Moving Average model ）和分過程（Integrated process）自己回帰和分移動平均モデルは、自己回帰パラメーター（p）と、移動平均パラメーター（q）と、差分の階数（d）とを使用します。和分過程の説明であったように、一般的に和分は1で表されます。つまり、ARIMA(p,1,q)モデルで記述される自己回帰和分移動平均モデルデータは、ARMA(p,q)モデルで記述される自己回帰移動平均モデルの1階和分系列であることを意味します。自己回帰モデルと移動平均モデルは、それぞれ単独であっても高い分析能力があります。自己回帰移動平均モデルは、更に高い分析能力があります。自己回帰和分移動平均モデルはデータの差分を取ることで、データの整形を行った上で、自己回帰移動平均モデルとして、より正しく分析することができます。コラムコスパとタイパ、両方結果的に良くなる良くなる学び方とは？「スクールは高いし時間も縛られて効率が悪い」と考える方は多いと思います。もちろん、時間も費用もかかることは間違いありません。ただ結果的に無駄な学びにお金も時間もかける方がリスクが高いという考えもあります。

機械学習

Pythonでcsvファイルを読み書きする方法を現役エンジニアが解説【初心者向け】

Pythonでcsvファイルを読み書きする方法について解説します。そもそもPythonについてよく分からないという方は、Pythonとは何なのか解説した記事を読むとさらに理解が深まります。なお本記事は、TechAcademyのオンラインブートキャンプPython講座の内容をもとに紹介しています。田島悠介今回は、Pythonに関する内容だね！大石ゆかりどういう内容でしょうか？田島悠介 Pythonでcsvファイルを読み書きする方法について詳しく説明していくね！大石ゆかりお願いします！ csv.readerの使い方 csvファイルとは、テキストファイルの1種で、ファイルの内部のデータがカンマで区切られて保持されているものです。 5.1,3.5,1.4,0.2,Iris-setosa 4.9,3.0,1.4,0.2,Iris-setosa 4.7,3.2,1.3,0.2,Iris-setosa 4.6,3.1,1.5,0.2,Iris-setosa 5.0,3.6,1.4,0.2,Iris-setosa 今回の記事ではcsvファイルの例として、機械学習で良く使われるIrisを使用します。以下のサイトの「iris.data」をクリックしてファイルをダウンロードして、ファイル名を「iris.csv」にリネームしておきましょう。 Index of /ml/machine-learning-databases/iris Pythonの標準ライブラリでcsvファイルの読み込みと書き込みを行えるのがcsvモジュールです。 csvモジュールはファイルの読み込みまたは書き込みを行うファイルオブジェクトと共に使用します。ファイルの読み書きについては以下の記事も参考にしてください。 Pythonでファイルに書き込む方法【初心者向け】 csvファイルを読み込むにはcsv.readerを使用します。 csv.readerを使うことで、csvファイルを1行ずつ、list型で取得できます。それぞれの項目の型は文字列となります。 import csv file = open('iris.csv', 'r', encoding = "utf_8") reader = csv.reader(file) for row in reader: ? # csvファイル1行ずつの処理を記述 file.close() csvファイルの中身を出力するそれでは実際にcsvファイルの中身を出力してみましょう。 file = open('iris.csv', 'r', encoding = "utf_8") reader = csv.reader(file) for row in reader: print(row) file.close() 実行結果は以下のようになります(一部)。 ['5.1', '3.5', '1.4', '0.2', 'Iris-setosa'] ['4.9', '3.0', '1.4', '0.2', 'Iris-setosa'] ['4.7', '3.2', '1.3', '0.2', 'Iris-setosa'] ['4.6', '3.1', '1.5', '0.2', 'Iris-setosa'] ['5.0', '3.6', '1.4', '0.2', 'Iris-setosa'] [PR] Pythonで挫折しない学習方法を動画で公開中csv.writerの使い方 csvファイルに書き込みを行うにはcsv.writerを使用します。 file = open('iris2.csv', 'w', encoding

Python

【徹底解説】機械学習（マシンラーニング）とは！まずはここから理解しよう

現在、幅広い業種で人工知能（AI）が使われています。またニュースや新聞でも、人工知能の報道を目にしない日はありません。このような状況の中、人工知能に興味・関心を寄せるエンジニアが増えてきています。また企業においても、人工知能のスキルを持ったエンジニアの採用が活発に行われています。機械学習は、その人工知能の中核をなすテクノロジーであり、現代のエンジニアにとっては、ほぼ必須の知識とも言えるでしょう。この記事では、機械学習の概要、各種手法についての解説、ディープラーニングとの違いなどを紹介します。機械学習とはどのような技術か、実際にどのようなサービスに使われているか、ぜひ知っておきましょう。なお本記事は、TechAcademyのAIオンライン講座の内容をもとに作成しています。目次機械学習とは教師あり学習とは教師なし学習とは強化学習とはディープラーニングとの違いとは機械学習の代表的なライブラリ田島悠介今回は機械学習について解説するよ。大石ゆかり田島メンター！機械学習って最近よく耳にしますね。具体的にどのような技術なんですか〜？田島悠介人工知能の中核をなす技術の1つなんだ。詳しく見ていこう。大石ゆかり分かりました！機械学習とは人工知能（AI）とは、「コンピューターが物事やルールを理解するための仕組み」の様々な技術の総称です。コンピューターが物事やルールを理解するためには、人間が学習するプロセスと同様に、情報を与えて物事の特徴やルールを学習させなくてはなりません。この学習方法のことを機械学習（マシンラーニング）と呼びます。機械学習は、従来のプログラミングと違い、開発者が全ての動作をプログラミングするわけではありません。開発者はコンピューターにデータと分け方を与えます。コンピューターはその情報を元に、データの特徴を学習し、新たなデータに対する正解を予測します。例えば、以下のような手書き数字の画像データがあったとします。 MNIST 開発者は、この画像データに対する正解、「0」や「1」といった数値をペアで与えます。コンピューターは、画像データと正解の数値をもとに、数値毎の画像データの特徴を学習します。例えば「画像データのどの位置が濃い」といった特徴です。この学習の成果を「モデル」と言います。 tensorflow.org また、このことは、機械学習はデータの特徴をモデル化（数式化）できることを前提としている、とも捉えることができますね。そして、このモデルをもとに、新たな画像データの正解を「予測」します。これが機械学習の大まかな流れです。なお、人工知能の精度を高めるには、大量のデータでコンピューターに学習させることが必要です。2000年代に入り、高速・高性能なコンピューターが容易に入手できるようになりました。また、インターネットの発展により、従来より格段に多くのデータを収集できるようになりました。このことが、現代の機械学習の技術を支えています。それでは、次に機械学習の種類について確認して行きましょう。機械学習は大きく「教師あり学習」、「教師なし学習」、「強化学習」の3つに分けることができます。 [PR] Pythonで挫折しない学習方法を動画で公開中教師あり学習教師あり学習とは、データと正解を与えて、コンピューターに学習させる方法です。前出の手書き数字の学習例も教師あり学習です。教師あり学習は、分類問題と回帰問題に分けることができます。分類問題分類問題は、データを種類ごとに分けることを目標とします。例えば画像データを与えて花の種類を予測する、音声データを与えて文字を予測する、これらは分類問題となります。 Iris_flower_data_set 回帰問題回帰問題は、データの特徴から、新しいデータに対する値を予測することを目標とします。例えば株価の予測や、天気予報、これらは回帰問題となります。教師あり学習の手法次に代表的な教師あり学習の手法について紹介します。線形回帰、線形分類データを直線で予測するのが線形回帰、直線で分けるのが線形分類です。線形回帰（分類）は、学習も予測も高速で、モデルをシンプルに構築できる特徴があります。また古くから研究されており、以外に線形回帰（分類）できるデータは多いため、まず最初に検討してみるべき機械学習の手法の1つでしょう。 Wikipedia SVM(サポートベクターマシン) SVMは線形回帰（分類）の手法の1つです。線形回帰（分類）は直線で分類を行うのに対し、SVMは超平面分離定理という考え方をもとに、空間をねじれさせることで、最終的に曲線で回帰（分類）を行う手法です。 SVMは優れた機械学習の手法の1つで、ディープラーニングが登場するまでは、とても多く使われていました。モデルをシンプルに構築出来、精度も良いことから、現在でも多く使われている手法です。決定木木構造のモデルにより分類する手法です。決定木は機械学習の手法としてだけでなく、意思決定を助けるためのツールとしてもよく用いられます。他の手法に比べて、人間が見てもモデルを理解しやすいことから、リスクマネジメントのような、人間の判断が必要な分野の予測によく用いられます。 Wikipedia ニューラルネットワークニューラルネットワークは、重回帰分析（多変数解析）の手法の1つです。人の神経回路をモデルとしており、機械学習の手法としては、最も古く(1950年代)から研究された来たものの1つです。 Wikipedia ロジスティック回帰「回帰」と書いていますが「分類」の手法です。ニューラルネットワークのモデルの一部を変更（活性化関数をシグモイド関数に変更）したものです。ディープラーニングの1層版です。ディープラーニングはこのロジスティック回帰を複数層組み合わせたモデルです。教師なし学習とは教師なし学習とは、データだけ与えて、コンピューターにデータをグループ化（クラスタリング）させる方法です。例えば通販サイトで商品を購入した時「この商品を買った人はこんな商品も買っています」という文章を見たことは無いでしょうか。これは、コンピューターに「購買履歴」のデータを与えることで、教師なし学習により「商品Aを買った人は、商品Bを買う確率が高い」というようにユーザをグループ化することで実現しています。また、教師なし学習には主成分分析といって、データ分析をより行いやすくするための方法もあります。教師なし学習には以下のような手法があります。 k平均法クラスタ（分類するグループ）の数を決め、クラスタの数分、ランダムな点を起きます。各データは一番近い点に所属させます。所属が決まったら、クラスタに属するデータの中心を新しい点とします。これを繰り返すことでデータをグループ化します。主成分分析機械学習でモデルを構築する際、その前段階として、データの次元（説明変数の数）を削減するために用いられます。変数同士の相関度合いと寄与率をもとに、複数の変数を相関の少ない「主成分」と呼ばれる変数にまとめる手法です。これにより、機械学習のモデルをシンプルに構築することができるようになります。コラムコスパとタイパ、両方結果的に良くなる良くなる学び方とは？「スクールは高いし時間も縛られて効率が悪い」と考える方は多いと思います。もちろん、時間も費用もかかることは間違いありません。ただ結果的に無駄な学びにお金も時間もかける方がリスクが高いという考えもあります。コスパ・タイパ最適化の参考として、テックアカデミー卒業生がスクールを選んだ理由をご紹介します。

機械学習

初心者向け！機械学習を学ぶのにおすすめの本10選

今回は、機械学習を学ぶのにおすすめの本をまとめています。機械学習やディープラーニングを初めて学ぶ人におすすめの本、仕事でこれから使う人におすすめの本を紹介しています。書籍によって概念中心のもの、実践中心のものなど特徴が違うので、自分の好みに合った本を見つけてみてください。なお本記事は、TechAcademyのAIオンライン講座の内容をもとに作成しています。まず最初に、非エンジニア向けのおすすめ本を紹介します。仕事ではじめる機械学習仕事ではじめる機械学習特徴プロジェクトのはじめ方や、システム構成、学習のためのリソースの収集方法を中心にビジネスサイドの視点を踏まえた特徴があります。対象者深層学習も画像認識も自然言語処理も機械学習も全て含めて人工知能という1つのソフトウェアを使うと簡単に解決できるという思想の上司から、「人工知能のプロジェクト立ち上げるからあとよろしく」と言われて、現場を任された担当者向けです。学習できること最初に機械学習プロジェクトの流れを理解した上で、現場のシステムにおける機械学習の問題点を理解し、その対処方法を考えていきます。アルゴリズムについての学習では、例えば、パーセプトロン・ロジスティック回帰・SVM・ニューラルネットワーク・k-NN・決定木・ランダムフォレスト・GBDTを学習します。実装部分では、映画の推薦システムをつくるという内容で、実際に機械学習を利用した実装の解説があります。 60分でわかる! 機械学習&ディープラーニング超入門 60分でわかる! 機械学習&ディープラーニング超入門 (60分でわかる! IT知識) 特徴新聞を読むような感覚で機械学習とディープラーニングについて理解できます。対象者機械学習とディープラーニングを使うとどんなことができるのか全体像を理解したいビジネスマン向け学習できること自分で機械学習や人工知能について学習したい方だけでなく、だれかに説明することが出来るレベルの分かりやすい解説テキストとして学習利用することができます。 [PR] Pythonで挫折しない学習方法を動画で公開中やさしく学ぶ機械学習を理解するための数学のきほんアヤノ＆ミオと一緒に学ぶ機械学習の理論と数学、実装までやさしく学ぶ機械学習を理解するための数学のきほん ~アヤノ&ミオと一緒に学ぶ機械学習の理論と数学、実装まで~ 特徴忘れかけた高校卒業程度の数学の知識でも読むことが出来るという、機械学習というタイトル本の中でも抜きん出て安心感の有る文系向け機械学習解説本です。著者は、LINE Fukuoka株式会社に勤務しているデータエンジニアです。対象者機械学習に興味があるけど、数式が出てきた時点で意味がわからなくなってしまうという方向けです。学習できること基本的な機械学習の内容と、必要な数学の復習、PythonとNumPyの基礎について学習できます。ここから先はエンジニア向けの機械学習書籍です。 Pythonではじめる機械学習 ―scikit-learnで学ぶ特徴量エンジニアリングと機械学習の基礎 Pythonではじめる機械学習 ―scikit-learnで学ぶ特徴量エンジニアリングと機械学習の基礎特徴 scikit-learnのリリースマネージャである筆者が、機械学習の基礎だけでなく、「特徴量エンジニアリング」と「モデルの評価と改善」について詳しく解説している特徴があります。ここでは網羅できないほど多岐にわたる開発手法に関して、ちょうどよい掘り下げ方で解説してある点が特徴的です。対象者「特徴量エンジニアリング」と「モデルの評価と改善」に関しても関心があるエンジニア向け。学習できること scikit-learnと関連ライブラリの環境設定から、教師あり学習や、教師なし学習についても、その種類とメリット・デメリットに関して細かく解説してあります。「特徴量エンジニアリング」、「モデルの評価と改善」、「アルゴリズムチェーンとパイプライン」、「テキストデータの処理」等実践的な内容も学習できます。コラムコスパとタイパ、両方結果的に良くなる良くなる学び方とは？「スクールは高いし時間も縛られて効率が悪い」と考える方は多いと思います。もちろん、時間も費用もかかることは間違いありません。ただ結果的に無駄な学びにお金も時間もかける方がリスクが高いという考えもあります。

機械学習

機械学習のライブラリ！scikit-learnとは【初心者向け】現役エンジニアが解説

今回は、Pythonの代表的な機械学習のライブラリであるscikit-learnについて解説します。機械学習というと、複雑な数式を使ったり、なんだか難しそうなイメージですが、scikit-learnを使うと、とても手軽に機械学習を試してみることができます。ぜひ、この記事を参考に、機械学習にチャレンジしてみてください。目次 scikit-learnとは scikit-learnを利用するには scikit-learnの主な機能 scikit-learnを使った機械学習(1) scikit-learnを使った機械学習(2) scikit-learnとは scikit-learnは、Pythonの機械学習ライブラリです。「サイキット・ラーン」と読みます。 scikit-learnはオープンソース（BSD license）で公開されており、個人／商用問わず、誰でも無料で利用することができます。 scikit-learnは、現在も活発に開発が行われており、インターネット上で情報を探すのも容易です。多くの機械学習アルゴリズムが実装されていますが、どのアルゴリズムでも同じような書き方で利用することができます。また、サンプルのデータセット（トイデータセット）が付属しているため、インストールしてすぐ機械学習を試すことができます。このようなことから、初学者が機械学習を学び始めるには、最適のライブラリと言えます。他にもオープンソースで使えるPythonのライブラリをまとめているので、合わせてご覧ください。 [PR] Pythonで挫折しない学習方法を動画で公開中scikit-learnを利用するには scikit-learnを利用するには、Anacondaなどの開発環境のパッケージを使うのが簡単です。 Anaconda Anacondaは、データ分析やグラフ描画など、Pythonでよく利用されるライブラリを含んだ開発環境です。もちろん、scikit-learnも含まれています。よって、Anacondaを導入するだけで、scikit-learnをすぐ利用することができます。 Anacondaにscikit-learnがインストールされているかは、メニュー画面のEnvironmentsから、Installedを選択し、検索BOXに「scikit-learn」と入力することで確認を行うことができます。なお、Anacondaなどの開発環境を利用せず、手動でscikit-learnをインストールして利用することもできます。中級者向けとなるため手順は省略いたしますが、その場合scikit-learnをインストールする前に、事前に以下のライブラリもインストールする必要があります。 NumPy Scipy Pandas scikit-learnの主な機能次にscikit-learnの主な機能、特に機械学習のモデルについて説明します。以下をご覧ください。これはscikit-learnのアルゴリズムチートシートと呼ばれます。 scikit-learnを用いて機械学習を行う際、自分が行いたい分析（分類／回帰／クラスタリングなど）について、適切なモデルを選択する際の手助けとなるものです。また、scikit-learnでは、簡単にモデルを取り替えて機械学習を行うことができます。モデルを取り替える方法については、以降の項で説明します。分類（classification）与えられたデータがどのクラスに属するかを判別するものです。教師あり学習の分類問題を解くアルゴリズムと表現できます。以下のような種類があります。 SGD（stochastic gradient descent）大規模データ（10万件以上）におすすめな、線形のクラス分類手法です。カーネル近似 SGDではうまく分類できない場合に利用する、非線形なクラス分類手法です。こちらも大規模データ向けです。 Linear SVC 中小規模（10万件未満）におすすめな、線形のクラス分類手法です。 k近傍法 Linear SVCではうまく分類できない場合に利用する、非線形なクラス分類手法です。こちらも中小規模データ向けです。この他、テキストデータの場合、ナイーブベイズという手法があります。回帰（regression）与えられたデータをもとに、目的とする値を予測するものです。教師あり学習の回帰問題を解くアルゴリズムと表現できます。以下のような種類があります。 SGD（stochastic gradient descent）大規模データ（10万件以上）におすすめな、線形の回帰分析手法です。 LASSO、ElasticNet 中小規模（10万件未満）で、説明変数の一部が重要な場合におすすめな、回帰分析手法です。 Ridge、Liner SVR 中小規模（10万件未満）で、説明変数の全てが重要な場合におすすめな、回帰分析手法です。 SVR（ガウスカーネル）、Ensemble Ridge、またはLinerSVRではうまく分析できない場合に利用する、非線形な回帰分析手法です。クラスタリング（clustering）与えられたデータを、なんらかの規則にのっとって分けるものです。教師なし学習のクラスタリング問題を解くアルゴリズムと表現できます。以下のような種類があります。 KMeans いくつのクラスタに分かれるのか、事前に決めることができる場合におすすめな、クラスタリング分析手法です。大規模データの場合、MiniBatchといって、データを分けながら学習させる手法を取ります。スペクトラルクラスタリング、GMM KMeansではうまく分析できない場合に利用する、非線形なクラスタリング分析手法です。 MeanShift、VBGMM いくつのクラスタに分かれるのか、事前に決めることができない場合におすすめな、クラスタリング分析手法です。その他の機能次元削減与えられたデータの次元数が多い場合、学習効率を上げるため、次元削減という前処理を行います。 PCA、カーネルPCA、Isomap、SpectralEmbeddingなどの手法があります。ハイパーパラメータの最適化機械学習を行う際、学習の方法などを調整する数値のことを「ハイパーパラメータ」と言います。グリッドサーチ、クロスバリデーションなどの手法があります。コラムコスパとタイパ、両方結果的に良くなる良くなる学び方とは？「スクールは高いし時間も縛られて効率が悪い」と考える方は多いと思います。もちろん、時間も費用もかかることは間違いありません。ただ結果的に無駄な学びにお金も時間もかける方がリスクが高いという考えもあります。コスパ・タイパ最適化の参考として、

機械学習

マネタイズ手法を徹底比較！モバイルアプリ市場の現在とこれからのトレンド

本稿は、Smashing Magazineのブログ記事を了解を得て日本語翻訳し掲載した記事になります。本記事は、instinctools EE Labssのビジネス開発マネジャーのStacy Golmack氏によって投稿されました。モバイルアプリの市場は、ジャックの豆の木よりも急速に成長しています。業界の規模は大きく、毎日成長し、終わりは見えません。予測通り、iOS/Androidエンジニアの人口は急増し、市場に出回っているモバイルアプリの数も増え続けています。世界規模で見ても、モバイルアプリ業界の収益は急増しています。ハイブリッド型の収益モデル（アプリ内広告やアプリ内購入など）は、ビジネスの世界で急速に普及しています。多くの調査は、アプリ内広告が今後のモバイル成長の鍵となることを示しています。この記事では、以下の疑問について明らかにします。統計データと専門家の意見に裏付けされた、包括的な答えを導いています。平均的に、モバイルアプリはどれくらいの収益を生み出しますか？実際に平均収入は増えますか？今日、モバイルアプリ業界が直面している最大の課題は何ですか？今日、市場で最も一般的な収益モデルは何ですか？その中で、今後も成長が予測できるモデルは？どのモデルが生き残るでしょうか？モバイルアプリ市場には成長の見込みがあります App Annieが2015年に報告したレポートによると、モバイルアプリケーション業界は総年間収益が4.4兆円を突破し、5.5兆円まで増加すると予測されています。また、Statistaによると、年間総収入は2020年までに20兆円を超えると予測されています。リサーチ主体によって数字は多少異なりますが、全体像として、市場は決して飽和状態にはないということが示されています。 Forresterのレポートを参照したApp Annieの予測によると、2016年末までにスマートフォンを所有する人は、世界人口のわずか46％です。つまり今話題のモバイル革命は始まったばかりであることを示しています。消費者は企業よりも急速に進化しています。今日、モバイルインターネットは多くのユーザーにとって必要不可欠なものとなっています。アプリの人気に関しては、アグリゲータのアプリが、最上位に移行する可能性が高いです。アグリゲータとは、多数のオンラインリソースからコンテンツを引用して、それらをインターフェース上に見やすくまとめるツールです。コンテンツは、速報ニュースからユーザーの関心のあるニッチな分野に至るまで多岐にわたります。アグリゲータは、多数のWebサイトにアクセスしたり、多数のアプリをインストールする時間や余裕がないユーザーを対象としています。有名なアグリゲーターアプリは、Flipboard、News360、Feedly、IFTTTなどです。アグリゲータのアプリが、ショッピング体験を便利にするものである場合、ユーザーのお気に入りになる傾向があります。たとえば、Facebookはメッセンジャー（Messenger）によってこれを行いました。ユーザーは自分のニュースフィード広告を読んで、たとえばUberの配車を依頼できるのです。金持ちプラットフォーム、貧乏プラットフォームモバイルアプリの2大巨人、AndroidとiOSは、世界のスマートフォン市場を支配しています。 Gartnerの調査によると、2016年の第3四半期には、世界中で販売されているスマートフォンの87.8％がAndroidでした。この数字は、前年比で3.1％の増加です。一方、iOSの市場シェアは11.5％で、2015年比で2.5％の減少です。これらの成長は他の市場プレイヤーの地位を大幅に低下させました。スマートフォンデバイス市場の0.4％を占めていたWindowsは、モバイルプラットフォームの競争では3位となり、シェアは年率2.5％で減少しています。アップルとGoogleは、最大で最も人気の高いアプリストアを持っています。今のところ、アプリケーションやエンジニアの数において、他の競合他社がこれらのストアに対抗できる見込みはありません。 InMobiは、アプリの55％は、収益が10万円未満であると推定しています。さらに、世界中のアプリの3分の1が、製品の合計ダウンロード数が10,000に達していません。収益の格差はAndroidエンジニアの間で顕著であるのに対して、iOSデベロッパーの間ではより収益分配のバランスが取れています。2016年以降、iOSエンジニアの25％以上は毎月の収益が50万円を超えています。一方、Androidエンジニアで同様の収益を達成したのはわずか16％です。モバイルOSごとの月間平均収入を推定した興味深い統計があります。Forbesは、iOSは月平均で40万円を稼ぎ、2位のAndroidは12万円、3位のWindows Phoneは6万円程度を稼ぐと推定しています。しかし、Statistaの調べによると、この推定に反して2016年は、Windows Phoneアプリでは125万円、iOSアプリでは約90万円、Androidでは約50万円の月間平均収入が得られています。また、エンジニアの約75％は、Androidを最も好んでいます。彼らは、Androidベースの製品を開発することで収入を増やすことを考えています。 [PR] Pythonで挫折しない学習方法を動画で公開中モバイルアプリの概観高性能のモバイルCPUは、強力なグラフィック、高品質なディスプレイ、高速インターネット接続を備えることにより、スマートフォンをゲーム機に変えました。 App Annieのレポートによると、モバイルゲームは2011年にはモバイルアプリの収益全体の50％未満を占め、2015年にはモバイルアプリの市場収益の85％を生み出しました。この数字は、世界規模では約3.7兆円に相当します。しかし、ユーザーが他のカテゴリのアプリに費やす時間も急激に増加しています。ゲームアプリ以外のアプリは、アプリ使用時間において、ゲームアプリを追い抜いています。 Flurry Analytics Blogによると、2015年後半までにモバイルアプリの市場には、次のような変化が起きました。カスタマイズアプリ（ランチャー、アイコン、壁紙、ロック画面、デバイスカスタマイズアプリなど）が1位になり、セッションの使用率は332％上昇しました。新聞や雑誌のモバイル版アプリが2位で、135％の成長となりました。生産性向上ツールとアプリは使用率において3位で、125％の成長となりました。ライフスタイルとショッピングのソリューション関連のアプリは81％の成長で、4位となりました。メッセンジャー、ソーシャルアプリ、旅行、スポーツ、健康、フィットネス関連のアプリは、53％から54％に増加しました。ゲームは、ユーザーの使用時間が1％減少した唯一の例外です。収益モデル現在、収益モデルには主に6つのタイプがあります。ダイレクトセールス（直販）ユーザーが有料アプリをまだ購入していない場合、スクリーンショット、説明、動画を、画面上にプレビューします。これらを利用することで、ユーザーにアプリの購入を促し、製品のデモンストレーションを行うことができます。しかし、ダイレクトセールスによってユーザーに購入を決心させるのは困難です。このことは、収益性が最も高いアプリのリストに、有料アプリは入っていないという統計結果にも示されています。有料アプリは人気を失っている唯一のアプリですが、一部のケースではまだその価値が証明されています。たとえば、Minecraft Pocket Editionは、Google Playストアで最も利益を上げている有料アプリです。 2011年に正式にリリースされたMinecraftは、サンドボックスのビデオゲームで、ダウンロードごとに840円で販売されいます。フリーミアム（Freemium）フリーミアム（Freemium）の収益モデル（「無料」と「プレミアム」の組み合わせ）では、ユーザーは無償で基本機能を利用でき、1回限りまたはそれ以降は有料でプレミアム機能を利用できます。そのため、この収益モデルを利用するアプリは、可能な限り多くのダウンロード数を確保することに重点を置いています。フリーミアムモデルはその潜在的な搾取メカニズムについて強く批判されていますが、慎重に利用すれば優れた効果を発揮します。その例はClash of Clansです。サブスクリプション（月額課金）サブスクリプションの収益モデルは、フリーミアムと似ています。違いは、ユーザーは特定の機能だけでなく、アクセスするすべてのコンテンツについて料金を支払うことです。この収益モデルは、顧客ロイヤリティを高く保つことができれば、予測可能で長期的な収益フローを生み出します。この収益モデルを利用した優れたアプリの例は、認知心理学者が脳を訓練するために設計した、50以上の練習問題のあるLumosityです。 Lumosityは、月額（11.99ドル(約1,200円)）と年額（59.99ドル(約6,000円)）の定期購読のオプションを提供しています。 Lumosityは93,000人以上のユーザーから5つ星の平均評価を得ており、購読アプリ部門における驚異的な成功例といえます。アプリ内課金アプリ内課金は、モバイルゲーム、購入商品について料金を請求する商品カタログアプリで、特に一般的です。この収益モデルは柔軟性が高く、ゲームアプリの中にはユーザーに購入を促すものもあります。 2016年2月現在、Tech Timesによると、モバイルゲームのユーザーの約1.9％がアプリ内購入を行い、この数字は着実に増加しています。例として、ユーザーが特定の商品やサービスを購入できるソーシャルアプリであるMeetMeがあります。 MeetMeでは、料金を支払ってプロフィールのビューを増やすことができます。このアプリの開発者は、明確な収益モデルを持っていることで、相当な収入を得ることに成功しています。クラウドファンディングクラウドファンディングは、比較的新しい収益モデルです。アプリの開発者は、KickstarterやIndiegogoなど人気のあるオンライン上のプラットフォームで、アプリのアイデアを提示し、出資を募ります。興味深いプロジェクトであれば、当初募集した額より数倍高い資金を集めることもできます。スタートアップのShadowは理想的な例です。このプロジェクトでは、3,784人の支持者から82,577ドル(約900万円)の資金を集めています。 Shadowは、報酬とプロジェクトに対する独占権も提示して、睡眠と夢を記録するソフトウェアのクラウドファンディングに挑戦しました。 Shadow会員専用のカードを渡された人は、基本的にアプリを無料で利用できますが、利用価格が8ドルに上昇したときには、これを約2万ドルで売却できます。スポンサーシップスポンサーシップは、新しい収益モデルです。ユーザーは、報酬の見返りとして広告スポンサーになります。報酬は開発者にも分配されます。この収益モデルはまだ黎明期にあるため、マーケティング戦略を磨く必要があります。 RunKeeperは、4,500万人以上のユーザーからなるコミュニティを持ち、スポンサーシップを利用したビジネスモデルの素晴らしい例です。ユーザーは、一定の距離をランニングするか自転車で走ると、報酬を受け取ります。広告主がユーザーに支払います。開発者は、迷惑な広告を掲載していないことについて高く評価されるでしょう。コラムコスパとタイパ、両方結果的に良くなる良くなる学び方とは？「スクールは高いし時間も縛られて効率が悪い」と考える方は多いと思います。もちろん、時間も費用もかかることは間違いありません。ただ結果的に無駄な学びにお金も時間もかける方がリスクが高いという考えもあります。

スマートフォンアプリ開発

記事を検索

ニュース

インタビュー

テクノロジー

キャリア

お問い合わせ

PythonでSVMを実装する方法を現役エンジニアが解説【初心者向け】

目次

SVMとは

scikit-learnとは

実際に書いてみよう

まとめ

監修してくれたメンター

関連するキーワード

あわせてよく読まれている記事

時系列の種類やモデルの紹介！時系列分析とは【初心者向け】

Pythonでcsvファイルを読み書きする方法を現役エンジニアが解説【初心者向け】

【徹底解説】機械学習（マシンラーニング）とは！まずはここから理解しよう

初心者向け！機械学習を学ぶのにおすすめの本10選

機械学習のライブラリ！scikit-learnとは【初心者向け】現役エンジニアが解説

マネタイズ手法を徹底比較！モバイルアプリ市場の現在とこれからのトレンド

TechAcademyから
現役エンジニアの方へ
お知らせ

記事を検索

ニュース

インタビュー

テクノロジー

キャリア

お問い合わせ

目次

SVMとは

scikit-learnとは

実際に書いてみよう

まとめ

監修してくれたメンター

記事を検索

関連するキーワード

関連する記事

あわせてよく読まれている記事

TechAcademyから 現役エンジニアの方へ お知らせ

TechAcademyから
現役エンジニアの方へ
お知らせ