Python

Pythonで重回帰分析を行う方法を現役エンジニアが解説【初心者向け】

初心者向けにPythonで重回帰分析を行う方法について現役エンジニアが解説しています。重回帰分析とは複数の説明変数を用いた回帰分析のことです。1つの説明変数の場合は単回帰分析と呼びます。statsmodelsモジュールを利用して、統計モデル・機械学習モデルを構築する方法があります。

テックアカデミーマガジンは受講者数No.1のプログラミングスクール「テックアカデミー」が運営。初心者向けにプロが解説した記事を公開中。現役エンジニアの方はこちらをご覧ください。 ※ アンケートモニター提供元：GMOリサーチ株式会社　調査期間：2021年8月12日～8月16日　調査対象：2020年8月以降にプログラミングスクールを受講した18～80歳の男女1,000名　調査手法：インターネット調査

Pythonで重回帰分析を行う方法について、TechAcademyのメンター（現役エンジニア）が実際のコードを使用して、初心者向けに解説します。

Pythonについてそもそもよく分からないという方は、Pythonとは何なのか解説した記事を読むとさらに理解が深まります。

なお本記事は、TechAcademyのオンラインブートキャンプ、Python講座の内容をもとに紹介しています。

今回は、Pythonに関する内容だね！

どういう内容でしょうか？

Pythonで重回帰分析を行う方法について詳しく説明していくね！

お願いします！

重回帰分析とは

重回帰分析とは複数の説明変数を用いた回帰分析を指します。

これに対して1つの説明変数を用いた回帰分析を「単回帰分析」と呼びます。例えば「気温と降水確率をもとにお店のビールの売上を予測する」としましょう。

この場合、説明変数は「気温と降水確率」、予測対象は「ビールの売上」となります。なお、重回帰分析(とそれに対して使われる単回帰分析)という呼び名は古く、現在では「複数の説明変数を使った回帰モデル」や「多重線形モデル」という呼び名の方が良く使われています。

[PR] Pythonで挫折しない学習方法を動画で公開中

重回帰分析を行う方法

Python で重回帰分析を行うには主に2種類の方法があります。

statsmodels モジュールを利用して統計モデルを構築する方法
scikit-learn モジュールを利用して機械学習のモデルを構築する方法

ここではより多く使用されているscikit-learnを使った方法を取り上げます。 scikit-learnで回帰分析を行うには LinearRegression を使用します。

LinearRegressionについて、詳しくは公式サイトも参考にしてください。

scikit-learn?LinearRegression?

実際に書いてみよう

今回のサンプルプログラムでは、LinearRegressionを用いた重回帰分析の方法について確認します。実行はJupyter Notebookで行います。はじめに必要なライブラリを読み込みます。

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

%matplotlib inline

データはscikit-learnに添付されているボストンの住宅価格データを使用します。

# データの読み込み
from sklearn.datasets import load_boston

boston = load_boston()

dataset = pd.DataFrame(data = boston['data'], columns = boston['feature_names'])
dataset['price'] = boston['target']
dataset.head()

実行結果は以下のとおりです。

このデータからpriceを予測します。データを予測対象(目的変数と呼びます)と説明変数に分けます。

# 目的変数(Y)、説明変数(X)
Y = np.array(dataset['price'])
X = np.array(dataset[['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS', 'RAD',
 'TAX', 'PTRATIO', 'B', 'LSTAT']])

さらに、データを学習データと検証データに分割します。

# データの分割
from sklearn.model_selection import train_test_split
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.3, random_state=0)

重回帰分析はfit()関数で行います。

#線形回帰モデル
from sklearn.linear_model import LinearRegression
model = LinearRegression()
#学習はfit
model.fit(X_train, Y_train)

分析が終わったら検証データを使って予測してみましょう。予測はpredict()関数で行います。

Y_pred = model.predict(X_test)

予測結果と正解を比較してみましょう。

print(Y_test[:5])
print(Y_pred[:5])

実行結果は以下のとおりです。概ね近い数字がでていることが分かります。なお実行結果は環境により異なります。

[22.6 50. 23. 8.3 21.2]
[24.9357079 23.75163164 29.32638296 11.97534566 21.37272478]

グラフにしてみましょう。

plt.scatter(Y_test, Y_pred)

実行結果は以下のとおりです。右肩上がりに直線上にデータが集まっていることが確認できます。これは概ね正しく予測が行われていることを表しています。

コラム

コスパとタイパ、両方結果的に良くなる良くなる学び方とは？

「スクールは高いし時間も縛られて効率が悪い」と考える方は多いと思います。
もちろん、時間も費用もかかることは間違いありません。
ただ結果的に無駄な学びにお金も時間もかける方がリスクが高いという考えもあります。

コスパ・タイパ最適化の参考として、テックアカデミー卒業生がスクールを選んだ理由をご紹介します。

・困ったときに、質問や相談できる相手がいるため挫折しなかった
・プロとして必要なスキルのみを深く学べたので無駄がなかった
・副業案件の提供と納品までのサポートがあったので目的を達成できた

安価・短期間で広く浅く学んでも意味がありません。本当に自分の目的が達成できるか、それが重要です。
自分にどのスキルや学び方が合っているか、どんな学習方法かなど、お気軽に無料相談に参加してみませんか？

カウンセラー・現役のプロへ、何でも気軽に無料相談可能。 30分か60分お好きな時間が選べて、かつ3回まですべて無料でご利用できます。
無理な勧誘は一切ないので、お気軽にご参加ください。

今なら相談した方限定の割引・参加特典付き！無料相談はこちら

まとめ

今回の記事ではPythonで重回帰分析を行う方法を学習しました。

監修してくれたメンター

太田和樹（おおたかずき）

ITベンチャー企業のPM兼エンジニア。

普段は主に、Web系アプリケーション開発のプロジェクトマネージャーとプログラミング講師を行っている。守備範囲はフロントエンド、モバイル、サーバサイド、データサイエンティストと幅広い。その幅広い知見を生かして、複数の領域を組み合わせた新しい提案をするのが得意。

開発実績：画像認識技術を活用した駐車場混雑状況把握（実証実験）、音声認識を活用したヘルプデスク支援システム、Pepperを遠隔操作するアプリの開発、大規模基幹系システムの開発・導入マネジメント。

地方在住。仕事のほとんどをリモートオフィスで行う。通勤で消耗する代わりに趣味のDIYや家庭菜園、家族との時間を楽しんでいる。

内容分かりやすくて良かったです！

ゆかりちゃんも分からないことがあったら質問してね！

分かりました。ありがとうございます！

TechAcademyでは、初心者でも、Pythonを使った人工知能（AI）や機械学習の基礎を習得できる、オンラインブートキャンプを開催しています。

また、現役エンジニアから学べる無料体験も実施しているので、ぜひ参加してみてください。

プログラミングを独学で学習していて、このように感じた経験はないでしょうか？

・調べてもほしい情報が見つからない
・独学のスキルが実際の業務で通用するのか不安
・目標への学習プランがわからず、迷子になりそう

テックアカデミーでは、このような学習に不安を抱えている方へ、マンツーマンで相談できる機会を無料で提供しています。
30分間、オンラインでどんなことでも質問し放題です。

「受けてよかった」と感じていただけるようカウンセラーやエンジニア・デザイナーがあなたの相談に真摯に向き合います。

「自分に合っているか診断してほしい」
「漠然としているが話を聞いてみたい」
こんなささいな悩みでも大丈夫です。

無理な勧誘は一切ありませんので、まずはお気軽にご参加ください。
※体験用のカリキュラムも無料で配布いたします。（1週間限定）

今なら参加者限定の割引特典付き！無料相談を予約する

Pythonにおけるiter()の利用方法を現役エンジニアが解説【初心者向け】

Pythonにおけるiter()の利用方法について、TechAcademyのメンター（現役エンジニア）が実際のコードを使用して、初心者向けに解説します。 ...

Python

PythonでSourcetrailを使用する方法を現役エンジニアが解説【初心者向け】

PythonでSourcetrailを使用する方法について、TechAcademyのメンター（現役エンジニア）が実際のコードを使用して、初心者向けに解説します。...

Python

Pythonのlambda(ラムダ式)の書き方を現役エンジニアが解説【初心者向け】

Pythonのlambda(ラムダ式)の書き方について解説します。そもそもPythonについてよく分からないという方は、Pythonとは何なのか解説した...

Python

Pythonの変数名の命名規則を現役エンジニアが解説【初心者向け】

Pythonの変数名の命名規則について解説します。そもそもPythonについてよく分からないという方は、Pythonとは何なのか解説した記事を読むとさら...

Python

PythonのPillowの使い方を現役エンジニアが解説【初心者向け】

PythonのPillowの使い方について、テックアカデミーのメンター（現役エンジニア）が実際のコードを使用して初心者向けに解説します。 Pillowを学...

Python

PythonでWebサーバを構築する方法を現役エンジニアが解説【初心者向け】

PythonでWebサーバを構築する方法について、TechAcademyのメンター（現役エンジニア）が実際のコードを使用して、初心者向けに解説します。 &...

Python

あわせてよく読まれている記事

時系列の種類やモデルの紹介！時系列分析とは【初心者向け】

今回は、時系列分析について解説します。時系列の種類や時系列データのモデルについて紹介しているので、どういった分析の仕方があるのかぜひ知っておきましょう。なお本記事は、TechAcademyのオンラインブートキャンプ、AI講座とデータサイエンス講座の内容をもとに作成しています。田島悠介今回は、機械学習に関する内容だね！大石ゆかりどういう内容でしょうか？田島悠介時系列分析について詳しく説明していくね！大石ゆかりお願いします！時系列分析とは時系列分析とは時間の項目を軸に分析を行うことです。時系列分析は英語で、Time Series Analysisと言います。時系列分析は、時系列解析と約されることもあり、時系列分析について調べる場合は、時系列解析についてもキーワードとして調べると良いでしょう。時系列分析は、時系列データを元に、何故そのような時系列になってしまったかを理論的に分析するものです。この、何故そのような時系列になってしまったかという点を、時系列分析ではデータポイント列の背後にある理論と言います。代表的な利用方法としては、完全失業率や住宅価格の推移を元に株式相場の見通しを伝える経済ニュースが日々報道されています。時系列データとは時系列データとは、時系列分析で使用するデータのことです。時系列データは、一定間隔に基づいて集計され、統計学上の相関関係が認められるものをいいます。身近な時系列データとしては、総務省統計局のページから閲覧できる総合統計書があります。時系列データのモデルには様々なものがあります。モデルとは、考え方や理論のことを意味します。 [PR] Pythonで挫折しない学習方法を動画で公開中時系列の種類時系列には定常時系列と非定常時系列があります。実際に使用されるデータは、非定常時系列もののが多いです。そして、実際に解析する際には、非定常時系列データを定常時系列データに変換して解析することが多いです。定常時系列定常時系列とは、定常的な時系列のデータを意味する。定常性とは、確率の性質が一定であり、様々な時点に影響されないことを意味します。非定常時系列非定常時系列とは、非定常的な時系列データを意味する。非定常性とは、定常性が無いことで、確率の性質が一定しておらず、様々な時点の値に影響されるということを意味します。つまり、影響される要素が多いために解析する必要性があるということでもあります。代表的な時系列データのモデル時系列データにはいくつかのモデルが存在します。自己回帰モデル画像引用：wikipedia 自己回帰モデルは、英語でAuto Regression modelと呼ばれ、ARと省略されます。定常時系列データを使用します。現在の値は、過去の値に影響されて記述されるというモデルです。株式相場で、今日値上がりすれば、明日も値上がりするだろ言うというイメージです。自己回帰モデルは、自己回帰移動平均モデル（ARMAモデル）の特殊な例の1つです。また、自己回帰モデルは、ベクトル自己回帰モデル（VARモデル）の特殊な例の1つでもあります。自己回帰モデルは、時間対してある変数をある確率で分布したものを線形で表示します。変数とは、ある値を入れるは箱のようなものです。変数に入れられた日々の値を線形にする例として、株式相場のグラフがあります。移動平均モデル画像引用：wikipedia 移動平均モデルとは、英語でMoving Average modelと言いMAと省略されます。定常時系列データを使用します。移動平均モデルは、現在の値はq個前までの過去のノイズの重み付き和と、現在のノイズとに、平均値を加算したものとして考えるモデルです。つまり、過去のノイズが大きかった場合、現在の値もθの影響を受け変化するということになります。そして、現在の値が過去の移動平均で表現されることから移動平均モデルと言われます。自己回帰移動平均モデル画像引用：wikipedia 自己回帰移動平均モデルとは、英語でAutoregressive moving average modelと言い、ARMAと省略されます。定常時系列データを使用します。自己回帰移動平均モデルは、自己回帰モデルと移動平均モデルを組み合わせたモデルです。つまり、自己回帰モデルの現在の値は、過去の値に影響されて記述されるというモデルと、移動平均モデルの、現在の値はq個前までの過去のノイズの重み付き和と、現在のノイズとに、平均値を加算したものとして考えるモデルを組み合わせることで現在の値を記述するということです。自己回帰移動平均モデルの図式でいうと、p個以前の過去の値とq個以前のノイズの値を組み合わせることで現在の値を記述しています。和分過程和分過程とは、英語でIntegratedと言い、Iと省略されます。和分過程とは、以前の値に現在の値を加算することを意味します。株価などの金融取引に利用するデータで利用する時系列では、和分を利用します。ただ、自己回帰和分移動平均モデルで利用される場合は、和分次数を1と考えることが一般的です。次数とは、何かの指標を求める際に使用する自然数です。指標とは、物事を判断する際に目印となるものです。ここでは自然数を目印にします。自然数とは、正の整数を意味します。自己回帰和分移動平均モデル画像引用：wikipedia 自己回帰和分移動平均モデルとは、英語でAutoregressive Integrated Moving Averageと言い、ARIMAと省略されます。非定常時系列データを使用します。自己回帰和文移動平均モデルは次の3つのモデルを組み合わせてできています。自己回帰モデル（Autoregressive model ）移動平均モデル（Moving Average model ）和分過程（Integrated process）自己回帰和分移動平均モデルは、自己回帰パラメーター（p）と、移動平均パラメーター（q）と、差分の階数（d）とを使用します。和分過程の説明であったように、一般的に和分は1で表されます。つまり、ARIMA(p,1,q)モデルで記述される自己回帰和分移動平均モデルデータは、ARMA(p,q)モデルで記述される自己回帰移動平均モデルの1階和分系列であることを意味します。自己回帰モデルと移動平均モデルは、それぞれ単独であっても高い分析能力があります。自己回帰移動平均モデルは、更に高い分析能力があります。自己回帰和分移動平均モデルはデータの差分を取ることで、データの整形を行った上で、自己回帰移動平均モデルとして、より正しく分析することができます。コラムコスパとタイパ、両方結果的に良くなる良くなる学び方とは？「スクールは高いし時間も縛られて効率が悪い」と考える方は多いと思います。もちろん、時間も費用もかかることは間違いありません。ただ結果的に無駄な学びにお金も時間もかける方がリスクが高いという考えもあります。

機械学習

【徹底解説】機械学習（マシンラーニング）とは！まずはここから理解しよう

現在、幅広い業種で人工知能（AI）が使われています。またニュースや新聞でも、人工知能の報道を目にしない日はありません。このような状況の中、人工知能に興味・関心を寄せるエンジニアが増えてきています。また企業においても、人工知能のスキルを持ったエンジニアの採用が活発に行われています。機械学習は、その人工知能の中核をなすテクノロジーであり、現代のエンジニアにとっては、ほぼ必須の知識とも言えるでしょう。この記事では、機械学習の概要、各種手法についての解説、ディープラーニングとの違いなどを紹介します。機械学習とはどのような技術か、実際にどのようなサービスに使われているか、ぜひ知っておきましょう。なお本記事は、TechAcademyのAIオンライン講座の内容をもとに作成しています。目次機械学習とは教師あり学習とは教師なし学習とは強化学習とはディープラーニングとの違いとは機械学習の代表的なライブラリ田島悠介今回は機械学習について解説するよ。大石ゆかり田島メンター！機械学習って最近よく耳にしますね。具体的にどのような技術なんですか〜？田島悠介人工知能の中核をなす技術の1つなんだ。詳しく見ていこう。大石ゆかり分かりました！機械学習とは人工知能（AI）とは、「コンピューターが物事やルールを理解するための仕組み」の様々な技術の総称です。コンピューターが物事やルールを理解するためには、人間が学習するプロセスと同様に、情報を与えて物事の特徴やルールを学習させなくてはなりません。この学習方法のことを機械学習（マシンラーニング）と呼びます。機械学習は、従来のプログラミングと違い、開発者が全ての動作をプログラミングするわけではありません。開発者はコンピューターにデータと分け方を与えます。コンピューターはその情報を元に、データの特徴を学習し、新たなデータに対する正解を予測します。例えば、以下のような手書き数字の画像データがあったとします。 MNIST 開発者は、この画像データに対する正解、「0」や「1」といった数値をペアで与えます。コンピューターは、画像データと正解の数値をもとに、数値毎の画像データの特徴を学習します。例えば「画像データのどの位置が濃い」といった特徴です。この学習の成果を「モデル」と言います。 tensorflow.org また、このことは、機械学習はデータの特徴をモデル化（数式化）できることを前提としている、とも捉えることができますね。そして、このモデルをもとに、新たな画像データの正解を「予測」します。これが機械学習の大まかな流れです。なお、人工知能の精度を高めるには、大量のデータでコンピューターに学習させることが必要です。2000年代に入り、高速・高性能なコンピューターが容易に入手できるようになりました。また、インターネットの発展により、従来より格段に多くのデータを収集できるようになりました。このことが、現代の機械学習の技術を支えています。それでは、次に機械学習の種類について確認して行きましょう。機械学習は大きく「教師あり学習」、「教師なし学習」、「強化学習」の3つに分けることができます。 [PR] Pythonで挫折しない学習方法を動画で公開中教師あり学習教師あり学習とは、データと正解を与えて、コンピューターに学習させる方法です。前出の手書き数字の学習例も教師あり学習です。教師あり学習は、分類問題と回帰問題に分けることができます。分類問題分類問題は、データを種類ごとに分けることを目標とします。例えば画像データを与えて花の種類を予測する、音声データを与えて文字を予測する、これらは分類問題となります。 Iris_flower_data_set 回帰問題回帰問題は、データの特徴から、新しいデータに対する値を予測することを目標とします。例えば株価の予測や、天気予報、これらは回帰問題となります。教師あり学習の手法次に代表的な教師あり学習の手法について紹介します。線形回帰、線形分類データを直線で予測するのが線形回帰、直線で分けるのが線形分類です。線形回帰（分類）は、学習も予測も高速で、モデルをシンプルに構築できる特徴があります。また古くから研究されており、以外に線形回帰（分類）できるデータは多いため、まず最初に検討してみるべき機械学習の手法の1つでしょう。 Wikipedia SVM(サポートベクターマシン) SVMは線形回帰（分類）の手法の1つです。線形回帰（分類）は直線で分類を行うのに対し、SVMは超平面分離定理という考え方をもとに、空間をねじれさせることで、最終的に曲線で回帰（分類）を行う手法です。 SVMは優れた機械学習の手法の1つで、ディープラーニングが登場するまでは、とても多く使われていました。モデルをシンプルに構築出来、精度も良いことから、現在でも多く使われている手法です。決定木木構造のモデルにより分類する手法です。決定木は機械学習の手法としてだけでなく、意思決定を助けるためのツールとしてもよく用いられます。他の手法に比べて、人間が見てもモデルを理解しやすいことから、リスクマネジメントのような、人間の判断が必要な分野の予測によく用いられます。 Wikipedia ニューラルネットワークニューラルネットワークは、重回帰分析（多変数解析）の手法の1つです。人の神経回路をモデルとしており、機械学習の手法としては、最も古く(1950年代)から研究された来たものの1つです。 Wikipedia ロジスティック回帰「回帰」と書いていますが「分類」の手法です。ニューラルネットワークのモデルの一部を変更（活性化関数をシグモイド関数に変更）したものです。ディープラーニングの1層版です。ディープラーニングはこのロジスティック回帰を複数層組み合わせたモデルです。教師なし学習とは教師なし学習とは、データだけ与えて、コンピューターにデータをグループ化（クラスタリング）させる方法です。例えば通販サイトで商品を購入した時「この商品を買った人はこんな商品も買っています」という文章を見たことは無いでしょうか。これは、コンピューターに「購買履歴」のデータを与えることで、教師なし学習により「商品Aを買った人は、商品Bを買う確率が高い」というようにユーザをグループ化することで実現しています。また、教師なし学習には主成分分析といって、データ分析をより行いやすくするための方法もあります。教師なし学習には以下のような手法があります。 k平均法クラスタ（分類するグループ）の数を決め、クラスタの数分、ランダムな点を起きます。各データは一番近い点に所属させます。所属が決まったら、クラスタに属するデータの中心を新しい点とします。これを繰り返すことでデータをグループ化します。主成分分析機械学習でモデルを構築する際、その前段階として、データの次元（説明変数の数）を削減するために用いられます。変数同士の相関度合いと寄与率をもとに、複数の変数を相関の少ない「主成分」と呼ばれる変数にまとめる手法です。これにより、機械学習のモデルをシンプルに構築することができるようになります。コラムコスパとタイパ、両方結果的に良くなる良くなる学び方とは？「スクールは高いし時間も縛られて効率が悪い」と考える方は多いと思います。もちろん、時間も費用もかかることは間違いありません。ただ結果的に無駄な学びにお金も時間もかける方がリスクが高いという考えもあります。コスパ・タイパ最適化の参考として、テックアカデミー卒業生がスクールを選んだ理由をご紹介します。

機械学習

Pythonを利用してロジスティック回帰分析をする方法を現役エンジニアが解説【初心者向け】

Pythonを利用してロジスティック回帰分析をする方法について解説します。この記事では、Pythonでデータ解析や機械学習を使うときに必よく使われるscikit-learnと呼ばれるライブラリについて解説し、実際にscikit-learnを使った回帰分析を実践します。ぜひ参考にしてみてください。そもそもPythonについてよく分からないという方は、Pythonとは何なのか解説した記事を読むとさらに理解が深まります。なお本記事は、TechAcademyのオンラインブートキャンプPython講座の内容をもとに紹介しています。田島悠介今回は、Pythonに関する内容だね！大石ゆかりどういう内容でしょうか？田島悠介 Pythonを利用してロジスティック回帰分析をする方法について詳しく説明していくね！大石ゆかりお願いします！ scikit-learnライブラリとは？ “scikit-learn”は「サイキット・ラーン」という呼ばれるPythonのデータ解析と機械学習に特化したライブラリです。このライブラリを使うことでPythonがわかる人なら、誰でも比較的簡単に数行で機械学習を実践することができます。 scikit-learnライブラリはNumpやScipyといった行列計算に必要なライブラリ、matplotlibといったグラフなどのデータの可視化に便利なライブラリが組み込まれています。また、scikit-learnのチートシートを使えば、使いたいデータに合った機械学習がどれに当たるのか、専門的な知識がなくてもすぐにわかるようになっています。 scikit-learnの記事を読んでみると、scikit-learnについてさらによく分かると思うので、詳しく知りたい方は参照してみてください。 scikit-learnモジュールのインポート scikit-learnを使うには、まずは、Anacondaと呼ばれるPythonのパッケージ管理ツールを使ってインストールするか、pipコマンドを使ってscikit-learnをインストールしてください。 Anacondaを使う場合は、コマンドプロンプト(Windows)、もしくは、ターミナル(Mac)で conda install scikit-learn を実行します、 pipを使う場合は、condaの部分をpipに変えて、 pip install scikit-learn を実行すれば、scikit-learnのインストールができます。コマンドを実行して、 Successfully installed scikit-learn ... と表示されれば大丈夫です。. . . の部分はscikit-learnのバージョンが表示されます。あとは、Pythonのコードで、scikit-kearnを import sklearn でインポートすればPythonでscikit-learnを使うことができます。 [PR] Pythonで挫折しない学習方法を動画で公開中scikit-learnモジュールの使い方 scikit-learnにはデータ解析に便利なツールが数多く用意されています。主に、データセットデータの前処理機械学習モデルモデル評価、選択のための各ツールが提供されています。機械学習を試したい場合には、scikit-learnを使えば、データセットのダウンロードから性能の評価まで一貫して行なうことができるので、非常に便利です。データセットには、ボストンの住宅価格、アイリス(アヤメ)の花のデータ、手書き文字など様々なものがあります。データの前処理には、標準化、正規化などといったデータの加工に必要なツールがあります。そして、機械学習モデルには、「教師あり学習」と「教師なし学習」と呼ばれるの2種類のモデルがあり、チートシートを参照して複数のモデルの中から必要なモデルを選ぶことができます。 scikit-learnモジュールを利用してロジスティック回帰分析してみようそれでは、実際にscikit-learnを使ってみましょう。ここからは、Jupyterノートブックを用いることを想定しています。ですが、他の方法でも実践できるので使いたい環境で行なってください。今回は、ロジスティック回帰と呼ばれる機械学習を行います。ロジスティック回帰は教師あり学習に属するモデルで、クラス分類や確率の予測などに使われる分析手法です。ロジスティック回帰についての詳細な説明は省きますが、興味のある方はぜひ調べてみてください。Qiitaのこちらの記事などがオススメです。ではコードを書いていきましょう。まずは、scikit-learnと必要なツールをインポートします。 #必要なツールのインポート from sklearn.datasets import load_iris from sklearn.model_selection import train_test_split from sklearn.preprocessing import StandardScaler from sklearn.linear_model import LogisticRegression from sklearn.metrics import accuracy_score import pandas as pd load_irisはアイリスデータセットをダウンロードするのに使います。アイリスというのは、花の名前ですが、より細かい種類に別れています。このアイリスの種類を予測するのが今回の目標です。 train_test_split：データセットを訓練用とテスト用に分けるときに使います StandardScaler：データの前処理手法の一つである標準化で用います LogisticRegression：今回学習に使うロジスティック回帰というモデルです accuracy_score：モデルの性能を評価するとき正解率を計算することに使います他にもここでは、pandasというライブラリをインポートしています。Pandasを用いることでデータを扱いやすくなっています。続いて、 iris_data = load_iris() iris_df = pd.DataFrame(iris_data.data, columns=iris_data.feature_names) iris_df["target"] = iris_data.target とします。ここでは、アイリスデータセットを読み込み、pandasでデータフレームというデータ型に変換し、データフレームの”target”列に、予測する値となるラベルとして、花の種類を追加しています。次に、 #データセットをテスト用と訓練用に分ける x_train, x_test, y_train, y_test = train_test_split( iris_df.iloc[:, 0:4], iris_df.iloc[:, 4],

Python

機械学習のライブラリ！scikit-learnとは【初心者向け】現役エンジニアが解説

今回は、Pythonの代表的な機械学習のライブラリであるscikit-learnについて解説します。機械学習というと、複雑な数式を使ったり、なんだか難しそうなイメージですが、scikit-learnを使うと、とても手軽に機械学習を試してみることができます。ぜひ、この記事を参考に、機械学習にチャレンジしてみてください。目次 scikit-learnとは scikit-learnを利用するには scikit-learnの主な機能 scikit-learnを使った機械学習(1) scikit-learnを使った機械学習(2) scikit-learnとは scikit-learnは、Pythonの機械学習ライブラリです。「サイキット・ラーン」と読みます。 scikit-learnはオープンソース（BSD license）で公開されており、個人／商用問わず、誰でも無料で利用することができます。 scikit-learnは、現在も活発に開発が行われており、インターネット上で情報を探すのも容易です。多くの機械学習アルゴリズムが実装されていますが、どのアルゴリズムでも同じような書き方で利用することができます。また、サンプルのデータセット（トイデータセット）が付属しているため、インストールしてすぐ機械学習を試すことができます。このようなことから、初学者が機械学習を学び始めるには、最適のライブラリと言えます。他にもオープンソースで使えるPythonのライブラリをまとめているので、合わせてご覧ください。 [PR] Pythonで挫折しない学習方法を動画で公開中scikit-learnを利用するには scikit-learnを利用するには、Anacondaなどの開発環境のパッケージを使うのが簡単です。 Anaconda Anacondaは、データ分析やグラフ描画など、Pythonでよく利用されるライブラリを含んだ開発環境です。もちろん、scikit-learnも含まれています。よって、Anacondaを導入するだけで、scikit-learnをすぐ利用することができます。 Anacondaにscikit-learnがインストールされているかは、メニュー画面のEnvironmentsから、Installedを選択し、検索BOXに「scikit-learn」と入力することで確認を行うことができます。なお、Anacondaなどの開発環境を利用せず、手動でscikit-learnをインストールして利用することもできます。中級者向けとなるため手順は省略いたしますが、その場合scikit-learnをインストールする前に、事前に以下のライブラリもインストールする必要があります。 NumPy Scipy Pandas scikit-learnの主な機能次にscikit-learnの主な機能、特に機械学習のモデルについて説明します。以下をご覧ください。これはscikit-learnのアルゴリズムチートシートと呼ばれます。 scikit-learnを用いて機械学習を行う際、自分が行いたい分析（分類／回帰／クラスタリングなど）について、適切なモデルを選択する際の手助けとなるものです。また、scikit-learnでは、簡単にモデルを取り替えて機械学習を行うことができます。モデルを取り替える方法については、以降の項で説明します。分類（classification）与えられたデータがどのクラスに属するかを判別するものです。教師あり学習の分類問題を解くアルゴリズムと表現できます。以下のような種類があります。 SGD（stochastic gradient descent）大規模データ（10万件以上）におすすめな、線形のクラス分類手法です。カーネル近似 SGDではうまく分類できない場合に利用する、非線形なクラス分類手法です。こちらも大規模データ向けです。 Linear SVC 中小規模（10万件未満）におすすめな、線形のクラス分類手法です。 k近傍法 Linear SVCではうまく分類できない場合に利用する、非線形なクラス分類手法です。こちらも中小規模データ向けです。この他、テキストデータの場合、ナイーブベイズという手法があります。回帰（regression）与えられたデータをもとに、目的とする値を予測するものです。教師あり学習の回帰問題を解くアルゴリズムと表現できます。以下のような種類があります。 SGD（stochastic gradient descent）大規模データ（10万件以上）におすすめな、線形の回帰分析手法です。 LASSO、ElasticNet 中小規模（10万件未満）で、説明変数の一部が重要な場合におすすめな、回帰分析手法です。 Ridge、Liner SVR 中小規模（10万件未満）で、説明変数の全てが重要な場合におすすめな、回帰分析手法です。 SVR（ガウスカーネル）、Ensemble Ridge、またはLinerSVRではうまく分析できない場合に利用する、非線形な回帰分析手法です。クラスタリング（clustering）与えられたデータを、なんらかの規則にのっとって分けるものです。教師なし学習のクラスタリング問題を解くアルゴリズムと表現できます。以下のような種類があります。 KMeans いくつのクラスタに分かれるのか、事前に決めることができる場合におすすめな、クラスタリング分析手法です。大規模データの場合、MiniBatchといって、データを分けながら学習させる手法を取ります。スペクトラルクラスタリング、GMM KMeansではうまく分析できない場合に利用する、非線形なクラスタリング分析手法です。 MeanShift、VBGMM いくつのクラスタに分かれるのか、事前に決めることができない場合におすすめな、クラスタリング分析手法です。その他の機能次元削減与えられたデータの次元数が多い場合、学習効率を上げるため、次元削減という前処理を行います。 PCA、カーネルPCA、Isomap、SpectralEmbeddingなどの手法があります。ハイパーパラメータの最適化機械学習を行う際、学習の方法などを調整する数値のことを「ハイパーパラメータ」と言います。グリッドサーチ、クロスバリデーションなどの手法があります。コラムコスパとタイパ、両方結果的に良くなる良くなる学び方とは？「スクールは高いし時間も縛られて効率が悪い」と考える方は多いと思います。もちろん、時間も費用もかかることは間違いありません。ただ結果的に無駄な学びにお金も時間もかける方がリスクが高いという考えもあります。コスパ・タイパ最適化の参考として、

機械学習

転職を成功させるための第一歩！適切な自己分析のやり方

転職活動において、とりわけ重要なことの一つが【自己分析】。活動を開始する際に必ず、しっかりと行うべきことです。自己分析をすることで、今まで気付かなかった自分の長所や短所に気付くことができるだけでなく、今後のキャリアパスにおいて何を重視し何を求めていくのかが明確になります。また、企業に対して今後いくつかのアピールをする場面においても自己分析を裏付けとした内容が求められます。そんな、非常に重要な自己分析ですが、いざ始めてみようとするとなかなかやり方も成果もわからないもの。今回は、自己分析の方法についてまとめてみました。手軽に実践できる方法も織り交ぜて紹介するので、ぜひ転職活動にお役立てください。自己分析とはネットや書籍をみても、自己分析は非常に重要なものであるという情報は目にするものですが、実際どういったものでなにをすることが正解か知らない人も多いでしょう。そもそも自己分析とは「自分を探る」作業のことだと言われています。新卒の就職活動の際に「どんな仕事をしたいのか」「どんなことが向いているのか」「何に興味があるのか」などを考えた人も多いはず。しかし、こと転職活動においての自己分析は新卒と同じようにはいきません。それは、「自分を探った作業の結果、転職という結論を出したことはなぜか」という問題がついてまわるからです。また、社会人としての経験にいいて「好きな仕事」と「得意な仕事」が必ずしもイコールでないと感じる場面も多くあることでしょう。そのため、転職活動においての自己分析は漠然とした希望やイメージではなく、社会人としての経験に則った「これまでどんな経験をしてたか」「長所はなにか」「キャリアをどう考えているか」を考える必要があるのです。このように、転職活動という場面に即した自己分析を行えば、「転職という結論を出したことはなぜか」も明確になり、アピールポイントも明確になっていきます。あらためて社会人としての自分を見つめ、仕事を通して描くキャリアを問い直すことこそが転職活動における自己分析なのです。なぜ自己分析が必要なのか自己分析がどういったものかイメージがついたとは言え、なぜ自己分析をするかといった目的がわからなければなかなかやる気も起きないもの。前述の通り自分のキャリアや希望を明確にする側面だけでなく、自己分析を行うことでアピールポイントを固めて選考通過率を高めるための武器を作ることにもなるのです。転職活動では、履歴書や職務経歴書はもちろん面接の場でも自己PRとして自身の強みを企業に伝える必要があります。その強みとは、単なる長所や特技ではなく、「仕事内容に活かせる強み」という観点である必要があるのです。そういった強みはこれまでの経験や経歴に裏打ちされた納得感のあるものでなければなりません。つまり、これまでの経験を客観的に見つめ直し、具体的に話すことが必要となってくるのです。自分の今までを見つめ「アピールできる強みを理解する」こと、今後の希望を明確にし「活動の目標を定めること」この2つが自己分析の目的となるのです。 [PR] Pythonで挫折しない学習方法を動画で公開中自己分析の基本的な手順自己分析にはいくつか方法がありますが、オーソドックスなものは「棚卸し」を行い、「強みを言語化」して「整理する」といった3ステップの分析をおこなう方法でしょう。それぞれの手順に応じて重要なポイントを理解して、自己分析をより円滑に効果的にす進めてみましょう。ステップ1：キャリアの棚卸し社会人としての経験、主に仕事の内容や経験を書き出しましょう。書き出しの方法は5W1Hをイメージすると記載しやすいでしょう。 Why（なんのため）：会社の目標やチーム・自分のミッションはなんであったか How（どのように）：どのような進め方で仕事をしていたか Who（だれと）：関わった人やその中での役割はなんであったか What（なにを）：扱っていたものはなにか When（いつ）：スケジュールや期間はどうであったか Where（どこで）：どんな現場（会社）であったか可能な限りこれらを抽出し、より具体的な名称と数字を用いて詳細を洗い出しましょう。客観的な事実のもと、自分がどんなことをしてきたかを見ることで自分のこれまでを整理することが可能です。また、社会人経験が少ない場合は仕事以外の経験から棚卸ししましょう。その際は部活やアルバイト、勉学など一つのフィールドで棚卸しすることが大切。ここは何をしてきたかの確認になるため、一つのテーマで経験を深掘りすることが重要です。ステップ2：強みをキーワードに変えるステップ1で書き出した経験は、イコール自分自身のできることや能力です。ここから自身が大切にしてきたことや長所を抽出することがステップ2。自分の価値を見出す重要なポイントです。この強みのキーワードは様々ありますが、主に3つのカテゴリに別れることを覚えておいてください。周りに作用する力：気配り、プレゼン力、調整力、協調性、交渉力、理解力　etc.. 自分に作用する力：集中力、忍耐力、継続力、実行力、学習意欲　etc.. 課題に作用する力：企画力、論理的思考、計画性、分析能力、PCスキル　etc.. 例えば、ステップ1で棚卸しした経験の中で、「自分の提案した企画が通り、マーケティングを一から経験しプロジェクトを進めた。しかし、途中で挫折してしまい、先輩の助けを借りながらリリースすることができた。」といったものがあったとしましょう。この場合、『企画力』という強みがすでにあったこと、『計画力』に課題があったことがわかります。もし、課題である『計画力』もその後の業務で身につけているとすれば、『企画力』と『計画力』が仕事の経験を通して身についた強みのキーワードとなるわけです。ステップ3：具体的なエピソードを加えて整理するステップ1と2を通して自分のこれまでを整理できたところで最後の仕上げです。自己分析の目的は「アピールできる強みを理解する」ことと「活動の目標を定めること」ですので、これらを達成するためにわかりやすく具体的なエピソードを作成しましょう。特に「大切にしてきたこと/挑戦したこと」「具体的な成果」「成果」を読み取れることで、今後自分が活きる仕事が見え、応募書類に記載する「自己PR」の役にも立つはずです！上記を踏まえた例文が以下になります。入社半年で社内の新規プロジェクト立案のコンテストがあり、兼ねてから自身の企画を形にしてみたいと考え応募。全従業員が参加したコンテストで金賞を受賞し私の考えていた企画が新規事業としてスタート。 1年目の冬からプロジェクトチームのリーダーとしてメンバーを束ね、業務を推進するポジションにつくことができた。リリース前のマーケティング段階で思うような成果が得られず、諸先輩の力を借り徐々に軌道に乗せることができ、会員目標〇〇名を達成。 2年目では自身の課題であったマネジメント力と計画力を鍛えることができ、プロジェクトメンバー担当箇所の成果が上がるようフォローアップ。開発と運用面でスムーズにいくよう調整していくことができた。例文では成果を示しつつ、課題にトライし改善してきた実践を記載しています。アピールポイントや自分がどう活きるかイメージしやすい自己分析ができているでしょう。しかし、これまでの経験で自分の何が活きるかわからない、自信がないという方も少なくないでしょう。自己分析の切り口はどんな些細なことでも構いません。現在までの経験を客観的に見つめる作業ですので、どんなことでも強みと捉え形作っていきましょう。便利な自己分析ツールオーソドックスな自己分析の方法を理解したとしても実際にやってみようとすると不安になることもあるでしょう。そんな時は便利な自己分析のツールを利用してみるのもおすすめです。本を利用する自分でどのように自己分析を進めていったらいいのか迷う場合、本を利用するのもおすすめです。自己分析の方法や進め方を説明している書籍は多数あるので、本屋でチェックしてみるといいでしょう。なかには、直接書き込みながら自己分析を進めていけるタイプの書籍や、マインドマップを書きながら自分の性格を整理できる書籍もあります。このような書籍は空いた時間を利用して手軽に自己分析ができるので、忙しい人にもおすすめです。また、本を紹介している記事もありますので、自己分析に役立つ本4選も参考にしてみると良いでしょう。 Webツールを利用する最近では、Web上のツールを利用して自己分析ができるようになりました。まずは手軽に自己分析をしてみたいという場合には有効な方法です。さまざまな自己分析ツールがありますが、定番となっているのが「AnalyzeU+」。251問の質問に答えることで、経済産業省が定めている「社会人基礎能力」のうち、どのような分野に秀でているかチェックができます。診断結果は偏差値形式で表示されるため、とても分かりやすいところがポイントです。また、長所だけでなく自分の弱点も知ることができるため、転職活動を進めていく上で貴重な資料になることでしょう。さらに、「前に踏み出す力」や「チームで働く力」、「考え抜く力」の3つの項目に分かれており、自分に向いている業種を検討するときにとても役立ちます。また、ツールを紹介している記事もありますので、自己分析に役立つツールも参考にしてみると良いでしょう。コラムコスパとタイパ、両方結果的に良くなる良くなる学び方とは？「スクールは高いし時間も縛られて効率が悪い」と考える方は多いと思います。もちろん、時間も費用もかかることは間違いありません。ただ結果的に無駄な学びにお金も時間もかける方がリスクが高いという考えもあります。コスパ・タイパ最適化の参考として、テックアカデミー卒業生がスクールを選んだ理由をご紹介します。

キャリア・転職

初心者向け！機械学習を学ぶのにおすすめの本10選

今回は、機械学習を学ぶのにおすすめの本をまとめています。機械学習やディープラーニングを初めて学ぶ人におすすめの本、仕事でこれから使う人におすすめの本を紹介しています。書籍によって概念中心のもの、実践中心のものなど特徴が違うので、自分の好みに合った本を見つけてみてください。なお本記事は、TechAcademyのAIオンライン講座の内容をもとに作成しています。まず最初に、非エンジニア向けのおすすめ本を紹介します。仕事ではじめる機械学習仕事ではじめる機械学習特徴プロジェクトのはじめ方や、システム構成、学習のためのリソースの収集方法を中心にビジネスサイドの視点を踏まえた特徴があります。対象者深層学習も画像認識も自然言語処理も機械学習も全て含めて人工知能という1つのソフトウェアを使うと簡単に解決できるという思想の上司から、「人工知能のプロジェクト立ち上げるからあとよろしく」と言われて、現場を任された担当者向けです。学習できること最初に機械学習プロジェクトの流れを理解した上で、現場のシステムにおける機械学習の問題点を理解し、その対処方法を考えていきます。アルゴリズムについての学習では、例えば、パーセプトロン・ロジスティック回帰・SVM・ニューラルネットワーク・k-NN・決定木・ランダムフォレスト・GBDTを学習します。実装部分では、映画の推薦システムをつくるという内容で、実際に機械学習を利用した実装の解説があります。 60分でわかる! 機械学習&ディープラーニング超入門 60分でわかる! 機械学習&ディープラーニング超入門 (60分でわかる! IT知識) 特徴新聞を読むような感覚で機械学習とディープラーニングについて理解できます。対象者機械学習とディープラーニングを使うとどんなことができるのか全体像を理解したいビジネスマン向け学習できること自分で機械学習や人工知能について学習したい方だけでなく、だれかに説明することが出来るレベルの分かりやすい解説テキストとして学習利用することができます。 [PR] Pythonで挫折しない学習方法を動画で公開中やさしく学ぶ機械学習を理解するための数学のきほんアヤノ＆ミオと一緒に学ぶ機械学習の理論と数学、実装までやさしく学ぶ機械学習を理解するための数学のきほん ~アヤノ&ミオと一緒に学ぶ機械学習の理論と数学、実装まで~ 特徴忘れかけた高校卒業程度の数学の知識でも読むことが出来るという、機械学習というタイトル本の中でも抜きん出て安心感の有る文系向け機械学習解説本です。著者は、LINE Fukuoka株式会社に勤務しているデータエンジニアです。対象者機械学習に興味があるけど、数式が出てきた時点で意味がわからなくなってしまうという方向けです。学習できること基本的な機械学習の内容と、必要な数学の復習、PythonとNumPyの基礎について学習できます。ここから先はエンジニア向けの機械学習書籍です。 Pythonではじめる機械学習 ―scikit-learnで学ぶ特徴量エンジニアリングと機械学習の基礎 Pythonではじめる機械学習 ―scikit-learnで学ぶ特徴量エンジニアリングと機械学習の基礎特徴 scikit-learnのリリースマネージャである筆者が、機械学習の基礎だけでなく、「特徴量エンジニアリング」と「モデルの評価と改善」について詳しく解説している特徴があります。ここでは網羅できないほど多岐にわたる開発手法に関して、ちょうどよい掘り下げ方で解説してある点が特徴的です。対象者「特徴量エンジニアリング」と「モデルの評価と改善」に関しても関心があるエンジニア向け。学習できること scikit-learnと関連ライブラリの環境設定から、教師あり学習や、教師なし学習についても、その種類とメリット・デメリットに関して細かく解説してあります。「特徴量エンジニアリング」、「モデルの評価と改善」、「アルゴリズムチェーンとパイプライン」、「テキストデータの処理」等実践的な内容も学習できます。コラムコスパとタイパ、両方結果的に良くなる良くなる学び方とは？「スクールは高いし時間も縛られて効率が悪い」と考える方は多いと思います。もちろん、時間も費用もかかることは間違いありません。ただ結果的に無駄な学びにお金も時間もかける方がリスクが高いという考えもあります。

機械学習

記事を検索

ニュース

インタビュー

テクノロジー

キャリア

お問い合わせ

Pythonで重回帰分析を行う方法を現役エンジニアが解説【初心者向け】

目次

重回帰分析とは

重回帰分析を行う方法

実際に書いてみよう

まとめ

監修してくれたメンター

関連するキーワード

あわせてよく読まれている記事

時系列の種類やモデルの紹介！時系列分析とは【初心者向け】

【徹底解説】機械学習（マシンラーニング）とは！まずはここから理解しよう

Pythonを利用してロジスティック回帰分析をする方法を現役エンジニアが解説【初心者向け】

機械学習のライブラリ！scikit-learnとは【初心者向け】現役エンジニアが解説

転職を成功させるための第一歩！適切な自己分析のやり方

初心者向け！機械学習を学ぶのにおすすめの本10選

TechAcademyから
現役エンジニアの方へ
お知らせ

記事を検索

ニュース

インタビュー

テクノロジー

キャリア

お問い合わせ

目次

重回帰分析とは

重回帰分析を行う方法

実際に書いてみよう

まとめ

監修してくれたメンター

記事を検索

関連するキーワード

関連する記事

あわせてよく読まれている記事

TechAcademyから 現役エンジニアの方へ お知らせ

TechAcademyから
現役エンジニアの方へ
お知らせ