機械学習

徹底解説！scikit-learnを使った教師あり・なし学習とは

scikit-learnを使った教師あり・なし学習について詳しく解説しています。教師あり・なし学習の手法とその表示グラフも紹介しているので、ぜひ参考にしてチャレンジしてみてくださいね！

テックアカデミーマガジンは受講者数No.1のプログラミングスクール「テックアカデミー」が運営。初心者向けにプロが解説した記事を公開中。現役エンジニアの方はこちらをご覧ください。 ※ アンケートモニター提供元：GMOリサーチ株式会社　調査期間：2021年8月12日～8月16日　調査対象：2020年8月以降にプログラミングスクールを受講した18～80歳の男女1,000名　調査手法：インターネット調査

今回は、教師あり学習と教師なし学習について解説します。

ぜひ、この記事を参考に、教師あり・なし学習にチャレンジしてみてください。

なお本記事は、TechAcademyのオンラインブートキャンプ、AI講座とデータサイエンス講座の内容をもとに作成しています。

今回は、scikit-learnに関する内容だね！

どういう内容でしょうか？

scikit-learnを使った教師あり・なし学習について詳しく説明していくね！

お願いします！

教師あり学習とは

教師あり学習とは、正解やより良い方法を膨大なデータとして用意しておき、その正解を元にコンピューターが学習することで、コンピューター自身を成長させる学習方法です。

Googleで開発されたAlphaGoという深層学習（ディープラーニング）により、世界最高峰のプロ囲碁棋士に勝利したプログラムがあります。

このAlphaGoのうち、第3世代までの、AlphaGo Masterは教師あり学習を元に、自己学習を繰り返した結果、プロ棋士に勝てるようになりました。

[PR]機械学習で挫折しない学習方法を動画で公開中

教師あり学習の手法

ここでは、scikit-learnを使用した教師あり学習の手法とその表示グラフを紹介します。

教師なし学習

教師なし学習といっても、最初の段階で教師あり学習のように、正解の大量のデータを教師として学習する部分が無いだけであり、基本的なルールは学習する必要があります。

基本ルール部分を学びますが、その部分は教師として考えないという理論です。

教師なし学習では、基本ルール内で勝つために、自分自身と戦い続けることで、性能を上げていきます。

AlphaGo Masterの次に開発されたAlphaGo Zeroは、教師なし学習を元に発展しました。

AlphaGo Zero では、ルール以外の知識は全く与えずに強化学習を行うことで、40日後に、AlphaGo Masterに89勝11敗しました。

つまり、AlphaGo Zeroは世界最強の囲碁棋士に40日間で成長することができたということです。

ここでは、scikit-learnを使用した教師なし学習の手法とその表示グラフを紹介します。

K-means(k平均法)

画像引用：http://scikit-learn.org

PCA

画像引用：http://scikit-learn.org

コラム

コスパとタイパ、両方結果的に良くなる良くなる学び方とは？

「スクールは高いし時間も縛られて効率が悪い」と考える方は多いと思います。
もちろん、時間も費用もかかることは間違いありません。
ただ結果的に無駄な学びにお金も時間もかける方がリスクが高いという考えもあります。

コスパ・タイパ最適化の参考として、テックアカデミー卒業生がスクールを選んだ理由をご紹介します。

・困ったときに、質問や相談できる相手がいるため挫折しなかった
・プロとして必要なスキルのみを深く学べたので無駄がなかった
・副業案件の提供と納品までのサポートがあったので目的を達成できた

安価・短期間で広く浅く学んでも意味がありません。本当に自分の目的が達成できるか、それが重要です。
自分にどのスキルや学び方が合っているか、どんな学習方法かなど、お気軽に無料相談に参加してみませんか？

カウンセラー・現役のプロへ、何でも気軽に無料相談可能。 30分か60分お好きな時間が選べて、かつ3回まですべて無料でご利用できます。
無理な勧誘は一切ないので、お気軽にご参加ください。

今なら相談した方限定の割引・参加特典付き！無料相談はこちら

教師あり学習と教師なし学習の違い

大きな違いは、教師あり学習では、正解や過去の模範例を教師として考え利用する点です。

教師なし学習では教師にあたる、過去の模範解答データは存在しません。

scikit-learnとは

scikit-learnは、Pythonの機械学習ライブラリです。「サイキット・ラーン」と読みます。

scikit-learnはオープンソース（BSD license）で公開されており、個人／商用問わず、誰でも無料で利用することができます。

scikit-learnは、多くの機械学習アルゴリズムが実装されており、どのアルゴリズムでも同じような書き方で利用することができます。

また、サンプルのデータセット（トイデータセット）が付属しているため、インストールしてすぐ機械学習を試すことができます。

機械学習のライブラリ！scikit-learnとはについての記事も参考にしてみてください。

他のライブラリの紹介

世界全体

Google Trendsでの調査結果です。

世界全体で見ると、次の順番で人気があるようです。

Keras
TensorFlow
Pytorch

TensorFlowよりもKerasの方が検索トレンド上位のようです。

これら3ライブラリ以外のライブラリも調査しましたが、3ライブラリと比較すると検索料が少なく、横線として表示されました。

そのため、3ライブラリ以外の検索順位は割愛しています。

日本全体

日本全体で見ると、次の順番で人気があるようです。

TensorFlow
Keras
Chainer
Pytorch

日本では、KerasよりもTensorFlowの方が検索トレンド上位のようです。

Chainerが3番目に人気があるのは、やはり日本企業の株式会社 Preferred Networksの存在が大きいと思います。

これら4ライブラリ以外のライブラリも調査しましたが、4ライブラリと比較すると検索量が少なく、横線として表示されました。

そのため、4ライブラリ以外の検索順位は割愛しています。

ライブラリまとめ

TensorFlow

サポート

Google

特徴

Googleがオープンソースで後悔しているディープラーニングのライブラリです。

Googleで実装され、AlphaGo Zero でも利用されているため、その実証効果は世界的に認められています。

Tensorとは多次元データ配列のことを意味します。

TensorFlowは多次元データ配列を計算し、ディープラーニングを行うためのライブラリです。

使い方を解説！Googleが開発したTensorflow（テンサーフロー）とはについての記事も参考にしてみてくださいね。

TensorFlow

Keras

サポート

keras.io

特徴

Pythonで実装されています。

深層学習のプロトタイプを作成する場合に非常に向いています。

Keras

Chainer

サポート

株式会社 Preferred Networks

特徴

日本国内の株式会社 Preferred Networksが開発・サポートしています。

日本企業が関わっているため、非常に多くの日本語情報が存在します。

また、渋谷にオフィスが有るためディープラーニングに関する技術を知りたい日本人にとっては、最も身近なライブラリになりそうです。

Chainer

Pytorch

サポート

Pytorch

特徴

Torchというフレームワークを提供していたチームが提供しています。

Chainerをフォークしたという話もあります。

Torchでは、Luna言語を使用していましたが、PytorchではPythonを利用します。

facebookやtwitterやNvidiaという大手企業がデベロッパーになっています。

Pytorch

Cognitive Toolkit

サポート

Microsoft

特徴

Microsoftが開発しているディープラーニングフレームワークです。

Microsoft

Caffe2

サポート

facebook

Nvidia

特徴

オープンソースのディープラーニング向けフレームワークです。

設定部分を変更するだけで、高度な専門知識を不要としたディープラーニングを行うことが出来ます。

Pythonを利用することが出来ます。

Caffe2

Deeplearning4j

サポート

Skymind

特徴

ScalaとJavaで実装されています。

Hadoopや Sparkと連携することが可能です。

Hadoopとは、オープンソースの分散処理ソフトウェアでJavaで実装されています。

Sparkとは、オープンソースの分散処理ソフトウェアでScalaで実装されています。

Deeplearning4j

PaddlePaddle

サポート

Baidu

特徴

Baiduは中国のGoogleのような企業です。

主に中国国内で利用されています。

PaddlePaddle

MXNet

サポート

Amazon

特徴

PythonやR言語、 Julia、 Go 言語等を利用することが出来ます。

MXNet

内容分かりやすくて良かったです！

ゆかりちゃんも分からないことがあったら質問してね！

分かりました。ありがとうございます！

今回は、教師あり学習と教師なし学習について解説しました。

これらの内容を参考にして、scikit-learnを使って教師あり・なし学習に挑戦してみてください！

TechAcademyでは、初心者でも、AI（人工知能）の構築に必要な機械学習・ディープラーニングについて実践的に学習することができる、オンラインブートキャンプAI講座を開催しています。

挫折しない学習方法を知れる説明動画や、現役エンジニアとのビデオ通話とチャットサポート、学習用カリキュラムを体験できる無料体験も実施しているので、ぜひ参加してみてください。

この記事を監修してくれた方

太田和樹（おおたかずき）
ITベンチャー企業のPM兼エンジニア

普段は主に、Web系アプリケーション開発のプロジェクトマネージャーとプログラミング講師を行っている。守備範囲はフロントエンド、モバイル、サーバサイド、データサイエンティストと幅広い。その幅広い知見を生かして、複数の領域を組み合わせた新しい提案をするのが得意。

開発実績：画像認識技術を活用した駐車場混雑状況把握（実証実験）、音声認識を活用したヘルプデスク支援システム、Pepperを遠隔操作するアプリの開発、大規模基幹系システムの開発・導入マネジメント

地方在住。仕事のほとんどをリモートオフィスで行う。通勤で消耗する代わりに趣味のDIYや家庭菜園、家族との時間を楽しんでいる。

プログラミングを独学で学習していて、このように感じた経験はないでしょうか？

・調べてもほしい情報が見つからない
・独学のスキルが実際の業務で通用するのか不安
・目標への学習プランがわからず、迷子になりそう

テックアカデミーでは、このような学習に不安を抱えている方へ、マンツーマンで相談できる機会を無料で提供しています。
30分間、オンラインでどんなことでも質問し放題です。

「受けてよかった」と感じていただけるようカウンセラーやエンジニア・デザイナーがあなたの相談に真摯に向き合います。

「自分に合っているか診断してほしい」
「漠然としているが話を聞いてみたい」
こんなささいな悩みでも大丈夫です。

無理な勧誘は一切ありませんので、まずはお気軽にご参加ください。
※体験用のカリキュラムも無料で配布いたします。（1週間限定）

今なら参加者限定の割引特典付き！無料相談を予約する

グラフ描画ライブラリ！matplotlibの使い方【初心者向け】

今回は、Pythonのグラフ描画ライブラリであるmatplotlibについて解説します。 matplotlibを使うと、様々な種類のグラフを描画したり、イ...

機械学習

データ分析のライブラリ！Pandasとは【初心者向け】｜現役エンジニアが解説

今回は、Pythonのデータ解析用ライブラリであるPandasについて解説します。 Pandasを使うと、データの統計量を表示したり、グラフ化するなど、デ...

機械学習

事例から学ぶ！人工知能（AI）を種類別に解説【初心者向け】

現在、幅広い業種で人工知能（AI）が使われています。またニュースや新聞でも、人工知能の報道を目にしない日はありません。このような状況の中、人工知能に興味...

機械学習

ディープラーニングで欠かせない！ニューラルネットワークとは

今回は、ニューラルネットワークについて解説します。ニューラルネットワークの仕組みについて説明し、種類も紹介しているので、ぜひ理解しておきましょう。 ...

機械学習

概念を理解しよう！深層学習（ディープラーニング）とは

最近、人工知能（AI）関連のニュースでキーワードとしてよく取り上げられる深層学習（ディープラーニング）について解説します。 2010年代から、コンピュータ...

機械学習

【明快に解説】いまさら人に聞けない！人工知能（AI）とは

近年、TVなどのメディアで「AI」という言葉をよく耳にします。しかし、実際AIがどんなもので私たちの生活にどのような利益をもたらしているのか、またAI産...

機械学習

あわせてよく読まれている記事

機械学習のライブラリ！scikit-learnとは【初心者向け】現役エンジニアが解説

今回は、Pythonの代表的な機械学習のライブラリであるscikit-learnについて解説します。機械学習というと、複雑な数式を使ったり、なんだか難しそうなイメージですが、scikit-learnを使うと、とても手軽に機械学習を試してみることができます。ぜひ、この記事を参考に、機械学習にチャレンジしてみてください。目次 scikit-learnとは scikit-learnを利用するには scikit-learnの主な機能 scikit-learnを使った機械学習(1) scikit-learnを使った機械学習(2) scikit-learnとは scikit-learnは、Pythonの機械学習ライブラリです。「サイキット・ラーン」と読みます。 scikit-learnはオープンソース（BSD license）で公開されており、個人／商用問わず、誰でも無料で利用することができます。 scikit-learnは、現在も活発に開発が行われており、インターネット上で情報を探すのも容易です。多くの機械学習アルゴリズムが実装されていますが、どのアルゴリズムでも同じような書き方で利用することができます。また、サンプルのデータセット（トイデータセット）が付属しているため、インストールしてすぐ機械学習を試すことができます。このようなことから、初学者が機械学習を学び始めるには、最適のライブラリと言えます。他にもオープンソースで使えるPythonのライブラリをまとめているので、合わせてご覧ください。 [PR]機械学習で挫折しない学習方法を動画で公開中scikit-learnを利用するには scikit-learnを利用するには、Anacondaなどの開発環境のパッケージを使うのが簡単です。 Anaconda Anacondaは、データ分析やグラフ描画など、Pythonでよく利用されるライブラリを含んだ開発環境です。もちろん、scikit-learnも含まれています。よって、Anacondaを導入するだけで、scikit-learnをすぐ利用することができます。 Anacondaにscikit-learnがインストールされているかは、メニュー画面のEnvironmentsから、Installedを選択し、検索BOXに「scikit-learn」と入力することで確認を行うことができます。なお、Anacondaなどの開発環境を利用せず、手動でscikit-learnをインストールして利用することもできます。中級者向けとなるため手順は省略いたしますが、その場合scikit-learnをインストールする前に、事前に以下のライブラリもインストールする必要があります。 NumPy Scipy Pandas scikit-learnの主な機能次にscikit-learnの主な機能、特に機械学習のモデルについて説明します。以下をご覧ください。これはscikit-learnのアルゴリズムチートシートと呼ばれます。 scikit-learnを用いて機械学習を行う際、自分が行いたい分析（分類／回帰／クラスタリングなど）について、適切なモデルを選択する際の手助けとなるものです。また、scikit-learnでは、簡単にモデルを取り替えて機械学習を行うことができます。モデルを取り替える方法については、以降の項で説明します。分類（classification）与えられたデータがどのクラスに属するかを判別するものです。教師あり学習の分類問題を解くアルゴリズムと表現できます。以下のような種類があります。 SGD（stochastic gradient descent）大規模データ（10万件以上）におすすめな、線形のクラス分類手法です。カーネル近似 SGDではうまく分類できない場合に利用する、非線形なクラス分類手法です。こちらも大規模データ向けです。 Linear SVC 中小規模（10万件未満）におすすめな、線形のクラス分類手法です。 k近傍法 Linear SVCではうまく分類できない場合に利用する、非線形なクラス分類手法です。こちらも中小規模データ向けです。この他、テキストデータの場合、ナイーブベイズという手法があります。回帰（regression）与えられたデータをもとに、目的とする値を予測するものです。教師あり学習の回帰問題を解くアルゴリズムと表現できます。以下のような種類があります。 SGD（stochastic gradient descent）大規模データ（10万件以上）におすすめな、線形の回帰分析手法です。 LASSO、ElasticNet 中小規模（10万件未満）で、説明変数の一部が重要な場合におすすめな、回帰分析手法です。 Ridge、Liner SVR 中小規模（10万件未満）で、説明変数の全てが重要な場合におすすめな、回帰分析手法です。 SVR（ガウスカーネル）、Ensemble Ridge、またはLinerSVRではうまく分析できない場合に利用する、非線形な回帰分析手法です。クラスタリング（clustering）与えられたデータを、なんらかの規則にのっとって分けるものです。教師なし学習のクラスタリング問題を解くアルゴリズムと表現できます。以下のような種類があります。 KMeans いくつのクラスタに分かれるのか、事前に決めることができる場合におすすめな、クラスタリング分析手法です。大規模データの場合、MiniBatchといって、データを分けながら学習させる手法を取ります。スペクトラルクラスタリング、GMM KMeansではうまく分析できない場合に利用する、非線形なクラスタリング分析手法です。 MeanShift、VBGMM いくつのクラスタに分かれるのか、事前に決めることができない場合におすすめな、クラスタリング分析手法です。その他の機能次元削減与えられたデータの次元数が多い場合、学習効率を上げるため、次元削減という前処理を行います。 PCA、カーネルPCA、Isomap、SpectralEmbeddingなどの手法があります。ハイパーパラメータの最適化機械学習を行う際、学習の方法などを調整する数値のことを「ハイパーパラメータ」と言います。グリッドサーチ、クロスバリデーションなどの手法があります。コラムコスパとタイパ、両方結果的に良くなる良くなる学び方とは？「スクールは高いし時間も縛られて効率が悪い」と考える方は多いと思います。もちろん、時間も費用もかかることは間違いありません。ただ結果的に無駄な学びにお金も時間もかける方がリスクが高いという考えもあります。コスパ・タイパ最適化の参考として、テックアカデミー卒業生がスクールを選んだ理由

機械学習

Pythonを利用してロジスティック回帰分析をする方法を現役エンジニアが解説【初心者向け】

Pythonを利用してロジスティック回帰分析をする方法について解説します。この記事では、Pythonでデータ解析や機械学習を使うときに必よく使われるscikit-learnと呼ばれるライブラリについて解説し、実際にscikit-learnを使った回帰分析を実践します。ぜひ参考にしてみてください。そもそもPythonについてよく分からないという方は、Pythonとは何なのか解説した記事を読むとさらに理解が深まります。なお本記事は、TechAcademyのオンラインブートキャンプPython講座の内容をもとに紹介しています。田島悠介今回は、Pythonに関する内容だね！大石ゆかりどういう内容でしょうか？田島悠介 Pythonを利用してロジスティック回帰分析をする方法について詳しく説明していくね！大石ゆかりお願いします！ scikit-learnライブラリとは？ “scikit-learn”は「サイキット・ラーン」という呼ばれるPythonのデータ解析と機械学習に特化したライブラリです。このライブラリを使うことでPythonがわかる人なら、誰でも比較的簡単に数行で機械学習を実践することができます。 scikit-learnライブラリはNumpやScipyといった行列計算に必要なライブラリ、matplotlibといったグラフなどのデータの可視化に便利なライブラリが組み込まれています。また、scikit-learnのチートシートを使えば、使いたいデータに合った機械学習がどれに当たるのか、専門的な知識がなくてもすぐにわかるようになっています。 scikit-learnの記事を読んでみると、scikit-learnについてさらによく分かると思うので、詳しく知りたい方は参照してみてください。 scikit-learnモジュールのインポート scikit-learnを使うには、まずは、Anacondaと呼ばれるPythonのパッケージ管理ツールを使ってインストールするか、pipコマンドを使ってscikit-learnをインストールしてください。 Anacondaを使う場合は、コマンドプロンプト(Windows)、もしくは、ターミナル(Mac)で conda install scikit-learn を実行します、 pipを使う場合は、condaの部分をpipに変えて、 pip install scikit-learn を実行すれば、scikit-learnのインストールができます。コマンドを実行して、 Successfully installed scikit-learn ... と表示されれば大丈夫です。. . . の部分はscikit-learnのバージョンが表示されます。あとは、Pythonのコードで、scikit-kearnを import sklearn でインポートすればPythonでscikit-learnを使うことができます。 [PR]機械学習で挫折しない学習方法を動画で公開中scikit-learnモジュールの使い方 scikit-learnにはデータ解析に便利なツールが数多く用意されています。主に、データセットデータの前処理機械学習モデルモデル評価、選択のための各ツールが提供されています。機械学習を試したい場合には、scikit-learnを使えば、データセットのダウンロードから性能の評価まで一貫して行なうことができるので、非常に便利です。データセットには、ボストンの住宅価格、アイリス(アヤメ)の花のデータ、手書き文字など様々なものがあります。データの前処理には、標準化、正規化などといったデータの加工に必要なツールがあります。そして、機械学習モデルには、「教師あり学習」と「教師なし学習」と呼ばれるの2種類のモデルがあり、チートシートを参照して複数のモデルの中から必要なモデルを選ぶことができます。 scikit-learnモジュールを利用してロジスティック回帰分析してみようそれでは、実際にscikit-learnを使ってみましょう。ここからは、Jupyterノートブックを用いることを想定しています。ですが、他の方法でも実践できるので使いたい環境で行なってください。今回は、ロジスティック回帰と呼ばれる機械学習を行います。ロジスティック回帰は教師あり学習に属するモデルで、クラス分類や確率の予測などに使われる分析手法です。ロジスティック回帰についての詳細な説明は省きますが、興味のある方はぜひ調べてみてください。Qiitaのこちらの記事などがオススメです。ではコードを書いていきましょう。まずは、scikit-learnと必要なツールをインポートします。 #必要なツールのインポート from sklearn.datasets import load_iris from sklearn.model_selection import train_test_split from sklearn.preprocessing import StandardScaler from sklearn.linear_model import LogisticRegression from sklearn.metrics import accuracy_score import pandas as pd load_irisはアイリスデータセットをダウンロードするのに使います。アイリスというのは、花の名前ですが、より細かい種類に別れています。このアイリスの種類を予測するのが今回の目標です。 train_test_split：データセットを訓練用とテスト用に分けるときに使います StandardScaler：データの前処理手法の一つである標準化で用います LogisticRegression：今回学習に使うロジスティック回帰というモデルです accuracy_score：モデルの性能を評価するとき正解率を計算することに使います他にもここでは、pandasというライブラリをインポートしています。Pandasを用いることでデータを扱いやすくなっています。続いて、 iris_data = load_iris() iris_df = pd.DataFrame(iris_data.data, columns=iris_data.feature_names) iris_df["target"] = iris_data.target とします。ここでは、アイリスデータセットを読み込み、pandasでデータフレームというデータ型に変換し、データフレームの”target”列に、予測する値となるラベルとして、花の種類を追加しています。次に、 #データセットをテスト用と訓練用に分ける x_train, x_test, y_train, y_test = train_test_split( iris_df.iloc[:, 0:4], iris_df.iloc[:, 4],

Python

【徹底解説】機械学習（マシンラーニング）とは！まずはここから理解しよう

現在、幅広い業種で人工知能（AI）が使われています。またニュースや新聞でも、人工知能の報道を目にしない日はありません。このような状況の中、人工知能に興味・関心を寄せるエンジニアが増えてきています。また企業においても、人工知能のスキルを持ったエンジニアの採用が活発に行われています。機械学習は、その人工知能の中核をなすテクノロジーであり、現代のエンジニアにとっては、ほぼ必須の知識とも言えるでしょう。この記事では、機械学習の概要、各種手法についての解説、ディープラーニングとの違いなどを紹介します。機械学習とはどのような技術か、実際にどのようなサービスに使われているか、ぜひ知っておきましょう。なお本記事は、TechAcademyのAIオンライン講座の内容をもとに作成しています。目次機械学習とは教師あり学習とは教師なし学習とは強化学習とはディープラーニングとの違いとは機械学習の代表的なライブラリ田島悠介今回は機械学習について解説するよ。大石ゆかり田島メンター！機械学習って最近よく耳にしますね。具体的にどのような技術なんですか〜？田島悠介人工知能の中核をなす技術の1つなんだ。詳しく見ていこう。大石ゆかり分かりました！機械学習とは人工知能（AI）とは、「コンピューターが物事やルールを理解するための仕組み」の様々な技術の総称です。コンピューターが物事やルールを理解するためには、人間が学習するプロセスと同様に、情報を与えて物事の特徴やルールを学習させなくてはなりません。この学習方法のことを機械学習（マシンラーニング）と呼びます。機械学習は、従来のプログラミングと違い、開発者が全ての動作をプログラミングするわけではありません。開発者はコンピューターにデータと分け方を与えます。コンピューターはその情報を元に、データの特徴を学習し、新たなデータに対する正解を予測します。例えば、以下のような手書き数字の画像データがあったとします。 MNIST 開発者は、この画像データに対する正解、「0」や「1」といった数値をペアで与えます。コンピューターは、画像データと正解の数値をもとに、数値毎の画像データの特徴を学習します。例えば「画像データのどの位置が濃い」といった特徴です。この学習の成果を「モデル」と言います。 tensorflow.org また、このことは、機械学習はデータの特徴をモデル化（数式化）できることを前提としている、とも捉えることができますね。そして、このモデルをもとに、新たな画像データの正解を「予測」します。これが機械学習の大まかな流れです。なお、人工知能の精度を高めるには、大量のデータでコンピューターに学習させることが必要です。2000年代に入り、高速・高性能なコンピューターが容易に入手できるようになりました。また、インターネットの発展により、従来より格段に多くのデータを収集できるようになりました。このことが、現代の機械学習の技術を支えています。それでは、次に機械学習の種類について確認して行きましょう。機械学習は大きく「教師あり学習」、「教師なし学習」、「強化学習」の3つに分けることができます。 [PR]機械学習で挫折しない学習方法を動画で公開中教師あり学習教師あり学習とは、データと正解を与えて、コンピューターに学習させる方法です。前出の手書き数字の学習例も教師あり学習です。教師あり学習は、分類問題と回帰問題に分けることができます。分類問題分類問題は、データを種類ごとに分けることを目標とします。例えば画像データを与えて花の種類を予測する、音声データを与えて文字を予測する、これらは分類問題となります。 Iris_flower_data_set 回帰問題回帰問題は、データの特徴から、新しいデータに対する値を予測することを目標とします。例えば株価の予測や、天気予報、これらは回帰問題となります。教師あり学習の手法次に代表的な教師あり学習の手法について紹介します。線形回帰、線形分類データを直線で予測するのが線形回帰、直線で分けるのが線形分類です。線形回帰（分類）は、学習も予測も高速で、モデルをシンプルに構築できる特徴があります。また古くから研究されており、以外に線形回帰（分類）できるデータは多いため、まず最初に検討してみるべき機械学習の手法の1つでしょう。 Wikipedia SVM(サポートベクターマシン) SVMは線形回帰（分類）の手法の1つです。線形回帰（分類）は直線で分類を行うのに対し、SVMは超平面分離定理という考え方をもとに、空間をねじれさせることで、最終的に曲線で回帰（分類）を行う手法です。 SVMは優れた機械学習の手法の1つで、ディープラーニングが登場するまでは、とても多く使われていました。モデルをシンプルに構築出来、精度も良いことから、現在でも多く使われている手法です。決定木木構造のモデルにより分類する手法です。決定木は機械学習の手法としてだけでなく、意思決定を助けるためのツールとしてもよく用いられます。他の手法に比べて、人間が見てもモデルを理解しやすいことから、リスクマネジメントのような、人間の判断が必要な分野の予測によく用いられます。 Wikipedia ニューラルネットワークニューラルネットワークは、重回帰分析（多変数解析）の手法の1つです。人の神経回路をモデルとしており、機械学習の手法としては、最も古く(1950年代)から研究された来たものの1つです。 Wikipedia ロジスティック回帰「回帰」と書いていますが「分類」の手法です。ニューラルネットワークのモデルの一部を変更（活性化関数をシグモイド関数に変更）したものです。ディープラーニングの1層版です。ディープラーニングはこのロジスティック回帰を複数層組み合わせたモデルです。教師なし学習とは教師なし学習とは、データだけ与えて、コンピューターにデータをグループ化（クラスタリング）させる方法です。例えば通販サイトで商品を購入した時「この商品を買った人はこんな商品も買っています」という文章を見たことは無いでしょうか。これは、コンピューターに「購買履歴」のデータを与えることで、教師なし学習により「商品Aを買った人は、商品Bを買う確率が高い」というようにユーザをグループ化することで実現しています。また、教師なし学習には主成分分析といって、データ分析をより行いやすくするための方法もあります。教師なし学習には以下のような手法があります。 k平均法クラスタ（分類するグループ）の数を決め、クラスタの数分、ランダムな点を起きます。各データは一番近い点に所属させます。所属が決まったら、クラスタに属するデータの中心を新しい点とします。これを繰り返すことでデータをグループ化します。主成分分析機械学習でモデルを構築する際、その前段階として、データの次元（説明変数の数）を削減するために用いられます。変数同士の相関度合いと寄与率をもとに、複数の変数を相関の少ない「主成分」と呼ばれる変数にまとめる手法です。これにより、機械学習のモデルをシンプルに構築することができるようになります。コラムコスパとタイパ、両方結果的に良くなる良くなる学び方とは？「スクールは高いし時間も縛られて効率が悪い」と考える方は多いと思います。もちろん、時間も費用もかかることは間違いありません。ただ結果的に無駄な学びにお金も時間もかける方がリスクが高いという考えもあります。コスパ・タイパ最適化の参考として、テックアカデミー卒業生がスクールを選んだ理由をご紹介します。

機械学習

ディープラーニングで欠かせない！ニューラルネットワークとは

今回は、ニューラルネットワークについて解説します。ニューラルネットワークの仕組みについて説明し、種類も紹介しているので、ぜひ理解しておきましょう。なお本記事は、TechAcademyのオンラインブートキャンプ、AI講座とデータサイエンス講座の内容をもとに作成しています。田島悠介今回は、機械学習に関する内容だね！大石ゆかりどういう内容でしょうか？田島悠介ニューラルネットワークについて詳しく説明していくね！大石ゆかりお願いします！ニューラルネットワークとはニュートラルネットワークとは、人間の脳内で処理される構造を数式モデルで表現したものです。コンピューターシステムにおいてのニュートラルネットワークは、脳内でニューロンがシナプスで結合することで、ネットワークを形成している状態の問題解決のモデルのことです。コンピューターシステムとは、何かの入力によってなにかの処理を行い、最終的に結果を自動的に導き出す、コンピューターを使用したシステムを意味します。シナプスとは、脳内の情報をやりとりする為にニューロン（神経細胞）同士をつなぐ接合部分のことです。ニューロンとは、脳内で考える場合の神経細胞のことです。ニューロン同士をシナプスで結合させています。シナプス同士の結合する強度を変化させることで、様々なニュートラルネットワークを選択することができます。これにより、様々な方法で問題解決を行うことが可能になります。ニューラルネットワークの仕組みニュートラルネットワークの基本ニュートラルネットワークの仕組み自体は非常にシンプルです。例えば1と2と3という数字をニュートラルネットワークに入力すると、4と5という数字が出力されるとします。つまり、処理される内容は明示されていないが、複数の数値を入力すると複数の数値が出力されるというのが最も基本的んニュートラルネットワークです。ここまでは非常にシンプルなのですが、この構造が多層化し、入力と出力以外の処理が存在するようになると、処理が一気に複雑化します。ニュートラルネットワークの応用ニュートラルネットワークでよく使われる画像認識について、数字を利用して簡単に説明します。例えば、多くの写真データから、人間と人間以外を分けるニュートラルネットワークがあると仮定します。写真データを入れた際の処理は次のようになります。人間だと判断する場合入力：写真データ ↓ ニュートラルネットワーク ↓ 出力：(1,0) 人間以外と判断する場合入力：社員データ ↓ ニュートラルネットワーク ↓ 出力：(0,1) この様に、ニュートラルネットワークを通すと、数値が返ってきます。つまり、ニュートラルネットワークはプログラミングで考えると、数値を返す関数のようなイメージで捉えることもできます。ニュートラルネットワークの部品ニュートラルネットワークは、入力層(input cell)、出力層(output cell)、隠れ層(hidden cell)、記憶層(memory cell)、中核(kernel)等で構成されます。ニュートラルネットワークでは、シナプス同士の結合の強さを変化させることで、情報の伝わりやすさが変化します。このシナプス同士の結合の強さを、人工ニューロンでは重みを意味するWeightの頭文字を意味するWを使用して表します。ニュートラルネットワークには、教師あり学習と、教師なし学習という考え方があります。教師あり学習とは教師あり学習とは、正解やより良い方法を膨大なデータとして用意しておき、その正解を元にコンピューターが学習することで、コンピューター自身を成長させる学習方法です。 Googleで開発されたAlphaGoという深層学習（ディープラーニング）により、世界最高峰のプロ囲碁棋士に勝利したプログラムがあります。このAlphaGoのうち、第3世代までの、AlphaGo Masterは教師あり学習を元に、自己学習を繰り返した結果、プロ棋士に勝てるようになりました。教師なし学習教師なし学習といっても、最初の段階で教師あり学習のように、正解の大量のデータを教師として学習する部分が無いだけであり、基本的なルールは学習する必要があります。基本ルール部分を学びますが、その部分は教師として考えないという理論です。教師なし学習では、基本ルール内で勝つために、自分自身と戦い続けることで、性能を上げていきます。 AlphaGo Masterの次に開発されたAlphaGo Zeroは、教師なし学習を元に発展しました。 AlphaGo Zero では、ルール以外の知識は全く与えずに強化学習を行うことで、40日後に、AlphaGo Masterに89勝11敗しました。つまり、AlphaGo Zeroは世界最強の囲碁棋士に40日間で成長することができたということです。 [PR]機械学習で挫折しない学習方法を動画で公開中ニューラルネットワークの種類単純パーセプトロン単純パーセプトロンとは、複数の入力層から与えられた値を処理し、出力するというものです。図解解説入力値は複数存在します。入力nのnは、何番目の入力値かは不明ですが、処理する部分は重み（w)です。重みで処理する内容としては、入力層から与えられた内容を足したり、掛けたりします。処理後の結果に対して、活性化関数の操作により出力されるかどうかが決定されます。活性化関数で行われる処理としては、いくつかありますが代表的なものにステップ関数があります。ステップ関数とは、ある閾値より大きかったら1を出力します。そして、ある閾値以下だったら0を出力します。ステップ関数をPythonで実装した場合のコード def step_function(x): if x < 10: return 1 else: return 0 ステップ関数をPythonで実装した場合の解説 1行目のdef step_function(x): では、step_functionという名称の関数を宣言しています。 (x)の部分は引数と言います。引数は関数を利用する際に、ある値を渡すことができます。ここで言う引数は、ニュートラルネットワークの入力層から渡された入力値に重みの処理をしたあとの値になります。 2行目のif x < 10:では、渡された引数が10より小さいかどうかを判断しています。今回の閾値は10です。 3行目のreturn 1は、引数xが閾値の10より大きかった場合に1が出力されるという意味です。0が出力値です。 4行目は、引数xが閾値の10以下だった場合に処理するという意味です。 5行目のreturn 0は、4行目の条件である、引数xが閾値10以下だった場合、0が出力されるという意味です。向いていること基本的には足し算や掛け算しかできない単純パーセプトロンですが、このパーセプトロンを並列に組み合わせることで、2層構造にすることができます。 2層構造になったパーセプトロンは、足し算や掛け算や平方根などの計算を学習することができます。つまり、教師あり学習が可能になるということです。向いていないこと単純パーセプトロンは線形分離不可能問題を解くことができません。線形分離とはoとxで構成された情報を線で区切ることです。多層パーセプトロン多層パーセプトロンとは、複数の入力層から与えられた値を処理し、出力するというものです。図解解説多層パーセプトロンは、単純パーセプトロンが複数組み合わさり、複数の重みの先に、隠れ層が存在し、そして更にその先に出力層が複数存在します。つまり、単純パーセプトロンが相互作用する形になっています。向いていること多層パーセプトロンは線形分離不可能問題を解決することが出来ます。向いていないことパラメーターを増やせば増やすほど、各パラメーターの学習を適切にすることが難しくなります。今回は、ニューラルネットワークについて解説しました。この記事を監修してくれた方中本賢吾（なかもとけんご）アジマッチ有限会社　代表取締役社長開発実績：PHPフレームワークを利用した会員制SNS・ネットショップ構築、AWSや専用サーバー下でLinuxを使用したセキュアな環境構築、人工知能を利用したシステム開発、店舗検索スマホアプリ開発など。その他にも地域の職業プログラマー育成活動を行い、2018年には小学生がUnityで開発したオリジナルAndroidアプリをGooglePlayでリリース。ゲームで遊ぶより作ろうぜ！を合言葉に、小学生でも起業できる技術力を育成可能で有ることを証明し続けている。大石ゆかり内容分かりやすくて良かったです！田島悠介ゆかりちゃんも分からないことがあったら質問してね！大石ゆかり分かりました。ありがとうございます！ TechAcademyでは、初心者でも、AI（人工知能）の構築に必要な機械学習・ディープラーニングについて実践的に学習することができる、オンラインブートキャンプAI講座を開催しています。挫折しない学習方法を知れる説明動画や、現役エンジニアとのビデオ通話とチャットサポート、学習用カリキュラムを体験できる

機械学習

データ分析のライブラリ！Pandasとは【初心者向け】｜現役エンジニアが解説

今回は、Pythonのデータ解析用ライブラリであるPandasについて解説します。 Pandasを使うと、データの統計量を表示したり、グラフ化するなど、データ分析（データサイエンス）や機械学習で必要となる作業を簡単に行うことができるようになります。 Pythonでデータ分析を行うには、必須のライブラリなので、ぜひこの記事を参考に、Pandasの使い方を覚えましょう。なお本記事は、TechAcademyのAIオンライン講座の内容をもとに作成しています。目次 Pandasとは Pandasの特徴 Pandasでできること Pandasを使うメリット Pandasを利用するにはダウンロード手順初期設定 Pandasの使い方 Pandasをより便利に使う方法 Pandasの勉強方法大石ゆかり田島メンター！Pandasというのは何でしょうか？田島悠介 Pythonのデータ解析用のライブラリだよ。Pythonでデータ分析や機械学習を行うには、必須のライブラリなんだ。大石ゆかりどのような機能があるのですか？田島悠介例を見ながら説明していくね！ Pandasとは Pandasは、Pythonでデータ分析を効率的に行うためのライブラリです。Pandasはオープンソース(BSDライセンス)で公開されており、個人／商用問わず、誰でも無料で利用することができます。 Pandasを使うと、データの読み込みや統計量の表示グラフ化データ分析に関する作業を容易に行うことができるようになります。また主要なコードはPythonまたはC言語で書かれており、Pythonだけでデータ分析を行うのと比較して、非常に高速に処理を行うことができます。データ分析（データサイエンス）は、機械学習を行うまでの前処理（データの読み込み、クリーニング、欠損値の補完、正規化など）が、全ての作業の8〜9割を占めると言われています。Pandasを使うとそのような処理が効率的に行えるようになるため、Pythonで機械学習を行うには、Pandasは必須のライブラリとなっています。 [PR]機械学習で挫折しない学習方法を動画で公開中Pandasの特徴 Pythonによるデータ分析で多く使われているライブラリといえば、PandasやMatplotlib、NumPyなどがあげられます。これらのライブラリはそれぞれ以下のような特徴があります。 Pandas Pandasはデータの読込や並べ替え、欠損値（欠けている項目値）の補完などを行うことができるライブラリです。データ分析の前処理段階でとても多く利用されています。データの読込はCSVやテキストだけでなく、エクセルやインターネット上で提供されている株価情報など、多様な形式のデータを読み込むことが出来ます。また、Pandasの特徴はDataFrameという多機能な「表」にあります。DataFrameにはデータの平均値や行数などの概要的な特徴を把握する機能や、並べ替えや列名の変更などのデータを整形する機能があります。またキーを指定しての集計やMatplotlibと連携してのグラフによる可視化など、データ分析のデータ前処理の段階で便利な多くの機能が提供されています。データ分析の過程では、Pandasである程度データをきれいに整えてから、NumPyで数値計算を行うようといったように、使い分けて利用することが多いでしょう。 Matplotlib MatplotlibはPythonで代表的なグラフを描画するライブラリです。2Dだけでなく3Dも含めた多くの種類のグラフを描画することができます。 Matplotlibは慣れると使いやすいのですが、はじめは使い方がやや難しく感じると思います。そのような場合、PandasやSeabornなどのライブラリと組み合わせることで、見た目の良いグラフを簡単に描画することができます。 Matplotlibはデータ分析の様々な段階で、NumPyやPandasと組み合わせてデータの概要を把握したり、特徴を可視化するような目的で使用します。 NumPy NumPyは数値計算や行列演算を行うライブラリです。複数の数値を配列としてまとめて扱ったり、行列演算を行ったりするのが得意です。特にコンピューターで小数点以下を扱う際の標準的な形式である浮動小数点型の行列演算を高速に行うことが出来ます。また三角関数や平方根などの数値計算の機能も豊富です。 NumPyはある程度データの前処理が終わり、きれいに整ったデータに対して数値計算を行うのに向いているライブラリと言えます。 Pandasでできること Pandasには多くの機能があります。主に利用する機能を確認してみましょう。なお以下でDataFrameと記載しているのはDataFrameオブジェクトを指しています。データの読込 CSV形式のデータの読込：read_csv() Excelファイルの読込：read_excel() JSON文字列の読込：read_json() pickle形式(Pythonオブジェクトを保存する形式)によるデータの読込/書込：read_pickle()、to_pickle() インターネット上で提供されている株価情報の読込：pandas-datareader データの特徴を把握データの特徴を表示：DataFrame.info() 要約統計量を表示：DataFrame.describe() データの一部を表示：DataFrame.head()、DataFrame.tail() データの形状を表示：DataFrame.shape 行数を取得：DataFrame.index.values 列名を取得：DataFrame.columns.values それぞれの列の型を取得：DataFrame.dtypes データの切り出し（スライス）データのスライス：DataFrame[]、DataFrame.iloc[]、DataFrame.loc[] フィルタリング：DataFrame.query() データの並べ替え値による並べ替え：DataFrame.sort_values() インデックスによる並べ替え：DataFrame.sort_index() 列名の変更：DataFrame.rename() 集計列の集計：DataFrame.value_counts() 表の集計：DataFrame.groupby() ※groupby().sum()で合計、groupby().mean()で平均値得ることができる可視化 Matplotlibのimportが必要ヒストグラム：DataFrame.hist() 散布図、線グラフ：DataFrame.plot() 棒グラフ：DataFrame.bar() 箱ひげ図：DataFrame.boxplot() 欠損値の扱い欠損値の確認：DataFrame.isnull().sum() 欠損値に値を埋める：DataFrame.fillna() 欠損値のある行を削除する：DataFrame.dropna() その他カテゴリー変数の展開：get_dummies() 列同士の相関を確認：DataFrame.corr() コラムコスパとタイパ、両方結果的に良くなる良くなる学び方とは？「スクールは高いし時間も縛られて効率が悪い」と考える方は多いと思います。もちろん、時間も費用もかかることは間違いありません。ただ結果的に無駄な学びにお金も時間もかける方がリスクが高いという考えもあります。コスパ・タイパ最適化の参考として、テックアカデミー卒業生がスクールを選んだ理由をご紹介します。

機械学習

Pythonによるk-meansクラスタリングの実装方法を現役エンジニアが解説【初心者向け】

Pythonによるk-meansクラスタリングの実装方法について、テックアカデミーのメンター（現役エンジニア）が実際のコードを使用して初心者向けに解説します。目次教師あり学習とは教師あり学習の手法教師なし学習教師あり学習と教師なし学習の違いscikit-learnとは他のライブラリの紹介ライブラリまとめそもそもPythonについてよく分からないという方は、Pythonとは何なのか解説した記事を読むとさらに理解が深まります。田島悠介今回は、Pythonに関する内容だね！大石ゆかりどういう内容でしょうか？田島悠介 Pythonによるk-meansクラスタリングの実装方法について詳しく説明していくね！大石ゆかりお願いします！ 1. k-meansとは？ k-meansとはクラスタリングの手法の一つで、非階層型クラスタリングのアルゴリズムです。クラスタの平均を用いて、与えられたクラスタ数 k個に分類することからこの名前が付けられました。k平均法と呼ばれることもあります。非階層型クラスタリングとは、異なる性質の集団の中から似た特徴を持ったものでクラスタを行う手法のことです。階層型と異なり、階層的な構造を持たず、予め決められたクラスタ数でサンプルを分類します。サンプルが大量にある正規分布のデータに対して、データをグループ分けを行う際に効果的です。また、クラスタリングは機械学習の手法一つでアルゴリズムから特徴を見つけて分類を行うことから、「教師なし学習」となります。 2. NumpyのインストールここからはPythonでクラスタリングを行うための環境をセッティングしていきます。まずは、配列の演算を扱うためのライブラリとしてNumpyをインストールしていきます。以下のコマンドを実行してインストールします。 pip install numpy [PR]機械学習で挫折しない学習方法を動画で公開中3. Pandasのインストール続いて、サンプルデータのファイルを読み込み、データフレームの形式に変換するためにPandasをインストールします。 pip install pandas コラムコスパとタイパ、両方結果的に良くなる良くなる学び方とは？「スクールは高いし時間も縛られて効率が悪い」と考える方は多いと思います。もちろん、時間も費用もかかることは間違いありません。ただ結果的に無駄な学びにお金も時間もかける方がリスクが高いという考えもあります。コスパ・タイパ最適化の参考として、テックアカデミー卒業生がスクールを選んだ理由

Python

記事を検索

ニュース

インタビュー

テクノロジー

キャリア

お問い合わせ

教師あり学習とは

教師あり学習の手法

Liner Model(線形回帰)

Logistic Regression(ロジスティック回帰)

Support Vector Regression(SVM)

Perceptron(パーセプトロン)

Decision Tree Regression(決定木回帰)

Rondom Forests(ランダムフォレスト)

Ada Boost

KNeighbors

Neural Network(ニューラルネットワーク)

教師なし学習

K-means(k平均法)

PCA

教師あり学習と教師なし学習の違い

scikit-learnとは

他のライブラリの紹介

世界全体

日本全体

ライブラリまとめ

TensorFlow

サポート

特徴

Keras

サポート

特徴

Chainer

サポート

特徴

Pytorch

サポート

特徴

Cognitive Toolkit

サポート

特徴

Caffe2

サポート

特徴

Deeplearning4j

サポート

特徴

PaddlePaddle

サポート

特徴

MXNet

サポート

特徴

記事を検索

関連するキーワード

関連する記事

あわせてよく読まれている記事

TechAcademyから 現役エンジニアの方へ お知らせ

TechAcademyから
現役エンジニアの方へ
お知らせ