Pythonで相関係数を求める方法を現役エンジニアが解説【初心者向け】
初心者向けにPythonで相関係数を求める方法について現役エンジニアが解説しています。相関係数とは、統計学や機械学習で使われ、2組のデータ群がどれほど関係しているかを示す指標の1つです。numpy.corrcoef関数を使った方法とpandas.DataFrame.corrメソッドを使った方法を解説します。
TechAcademyマガジンは受講者数No.1のオンラインプログラミングスクールTechAcademy [テックアカデミー]が運営。初心者向けに解説した記事を公開中。現役エンジニアの方はこちらをご覧ください。
Pythonで相関係数を求める方法について、TechAcademyのメンター(現役エンジニア)が実際のコードを使用して、初心者向けに解説します。
Pythonについてそもそもよく分からないという方は、Pythonとは何なのか解説した記事を読むとさらに理解が深まります。
なお本記事は、TechAcademyのオンラインブートキャンプ、Python講座の内容をもとに紹介しています。

今回は、Pythonに関する内容だね!

どういう内容でしょうか?

Pythonで相関係数を求める方法について詳しく説明していくね!

お願いします!
この記事では、Pythonを使ってデータの相関を表す指標である相関係数の計算方法について解説します。
目次
相関係数とは
まずは、相関係数について解説します。
相関係数というのは、2組のデータ群があるときに、それらのデータ群がどれほど関係しているかを示す指標の1つで、統計学や機械学習などといった分野で頻繁に使われるものです。相関係数は、-1~1までの値を取り、1に近いほど「正の相関がある」と言い、一方のデータが増加するともう片方のデータも増加える、といった関係です。
また、-1に近いほど「負の相関がある」と言い、一方のデータが増えるともう一方のデータは減少する、といった関係です。相関係数が0.8、0、-0.8のものを図に示します。相関係数が1に近いものは大まかに右斜上に向かう傾向が見て取れます。
逆に-1に近いものは、右斜下に向かうように見え、相関係数が0のものはデータが単に散らばっているだけに見えます。
このように、相関係数は、データの関連度合いを示すものとして使われます。
相関係数を求める方法
Pythonで相関係数を求める方法はいくつかあります。ここでは、numpy.corrcoef()関数を使った方法とpandas.DataFrame.corr()メソッドを使った方法について説明します。
numpy.corrcoef()関数の場合は、
numpy.corrcoef(1つ目のデータ, 2つ目のデータ)
とすることで、「相関行列」というものが返ってきます。
相関行列とは、それぞれの成分が
[[1つ目のデータと1つ目のデータ, 1つ目のデータと2つ目のデータ], [2つ目のデータと1つ目のデータ, 2つ目のデータと2つ目のデータ]]
の相関係数を表している行列です。
なので、相関係数だけを知りたい場合は、該当部分だけを取り出せば良いでしょう。
一方、pandasを使う場合は、データフレームとして相関を求めたい複数の列を持つものを用意して、
データフレーム.corr()
とすることで、各列の間の相関係数を算出することができます。こちらの場合も相関係数が返されます。
実際に計算してみよう
それでは、実際にコードを書いて実行してみることで、相関係数をどのようにして求めればよいか確認しましょう。
numpyを使う場合は、
# numpyのインポート import numpy as np # データを用意 x = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10]) y = np.array([2, 1, 3, 4, 3, 6, 9, 10, 6, 10]) # 相関行列を計算 coef = np.corrcoef(x, y) # 相関行列を表示 print(coef)
pandasを使う場合は、
# pandasのインポート import pandas as pd # 上で使ったデータを用いて、DataFrameを用意 df = pd.DataFrame([x,y]).T # 相関行列を計算 coef = df.corr() # 相関行列を表示 print(coef)
となります。それぞれ、
[[1. 0.87901474] [0.87901474 1. ]]
、
0 1 0 1.000000 0.879015 1 0.879015 1.000000
と表示され、相関係数がうまく計算できたことが確認できます。
まとめ
この記事では、Pythonで相関係数を算出する方法について解説しました。データ解析などでは必須の知識なので、必要に応じて参考にしてみてください。
監修してくれたメンター
小倉翔悟(おぐらしょうご)
AIプログラミングを使って開発を行う大学3年生。 プログラミング歴は約3年でPythonは割と得意。好きな物理理論は一般相対性理論で動物も好き。 |

内容分かりやすくて良かったです!

ゆかりちゃんも分からないことがあったら質問してね!

分かりました。ありがとうございます!
TechAcademyでは、初心者でも最短4週間で、Pythonを使った人工知能(AI)や機械学習の基礎を習得できる、オンラインブートキャンプを開催しています。
また、現役エンジニアから学べる無料体験も実施しているので、ぜひ参加してみてください。