Pythonで相関係数を求める方法を現役エンジニアが解説【初心者向け】

初心者向けにPythonで相関係数を求める方法について現役エンジニアが解説しています。相関係数とは、統計学や機械学習で使われ、2組のデータ群がどれほど関係しているかを示す指標の1つです。numpy.corrcoef関数を使った方法とpandas.DataFrame.corrメソッドを使った方法を解説します。

TechAcademyマガジンはオンラインのプログラミングスクールTechAcademy [テックアカデミー]が運営。初心者向けに解説した記事が4,000以上あります。現役エンジニアの方はこちらをご覧ください。

Pythonで相関係数を求める方法について、TechAcademyのメンター(現役エンジニア)が実際のコードを使用して、初心者向けに解説します。

Pythonについてそもそもよく分からないという方は、Pythonとは何なのか解説した記事を読むとさらに理解が深まります。

 

なお本記事は、TechAcademyのオンラインブートキャンプ、Python講座の内容をもとに紹介しています。

 

田島悠介

今回は、Pythonに関する内容だね!

大石ゆかり

どういう内容でしょうか?

田島悠介

Pythonで相関係数を求める方法について詳しく説明していくね!

大石ゆかり

お願いします!

この記事では、Pythonを使ってデータの相関を表す指標である相関係数の計算方法について解説します。

目次

 

相関係数とは

まずは、相関係数について解説します。

相関係数というのは、2組のデータ群があるときに、それらのデータ群がどれほど関係しているかを示す指標の1つで、統計学や機械学習などといった分野で頻繁に使われるものです。相関係数は、-1~1までの値を取り、1に近いほど「正の相関がある」と言い、一方のデータが増加するともう片方のデータも増加える、といった関係です。

また、-1に近いほど「負の相関がある」と言い、一方のデータが増えるともう一方のデータは減少する、といった関係です。相関係数が0.8、0、-0.8のものを図に示します。相関係数が1に近いものは大まかに右斜上に向かう傾向が見て取れます。

逆に-1に近いものは、右斜下に向かうように見え、相関係数が0のものはデータが単に散らばっているだけに見えます。

このように、相関係数は、データの関連度合いを示すものとして使われます。

[PR] Pythonで挫折しない学習方法を動画で公開中

相関係数を求める方法

Pythonで相関係数を求める方法はいくつかあります。ここでは、numpy.corrcoef()関数を使った方法とpandas.DataFrame.corr()メソッドを使った方法について説明します。

numpy.corrcoef()関数の場合は、

numpy.corrcoef(1つ目のデータ, 2つ目のデータ)

とすることで、「相関行列」というものが返ってきます。

相関行列とは、それぞれの成分が

[[1つ目のデータと1つ目のデータ,  1つ目のデータと2つ目のデータ],
 [2つ目のデータと1つ目のデータ, 2つ目のデータと2つ目のデータ]]

の相関係数を表している行列です。

なので、相関係数だけを知りたい場合は、該当部分だけを取り出せば良いでしょう。

一方、pandasを使う場合は、データフレームとして相関を求めたい複数の列を持つものを用意して、

データフレーム.corr()

とすることで、各列の間の相関係数を算出することができます。こちらの場合も相関係数が返されます。

実際に計算してみよう

それでは、実際にコードを書いて実行してみることで、相関係数をどのようにして求めればよいか確認しましょう。

numpyを使う場合は、

# numpyのインポート
import numpy as np

# データを用意
x = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10])
y = np.array([2, 1, 3, 4, 3, 6, 9, 10, 6, 10])

# 相関行列を計算
coef = np.corrcoef(x, y)

# 相関行列を表示
print(coef)

pandasを使う場合は、

# pandasのインポート
import pandas as pd

# 上で使ったデータを用いて、DataFrameを用意
df = pd.DataFrame([x,y]).T

# 相関行列を計算
coef = df.corr()

# 相関行列を表示
print(coef)

となります。それぞれ、

[[1. 0.87901474]
 [0.87901474 1. ]]

    0 1
0 1.000000 0.879015
1 0.879015 1.000000

と表示され、相関係数がうまく計算できたことが確認できます。

まとめ

この記事では、Pythonで相関係数を算出する方法について解説しました。データ解析などでは必須の知識なので、必要に応じて参考にしてみてください。

監修してくれたメンター

小倉翔悟(おぐらしょうご)

AIプログラミングを使って開発を行う大学3年生。

プログラミング歴は約3年でPythonは割と得意。好きな物理理論は一般相対性理論で動物も好き。

 

大石ゆかり

内容分かりやすくて良かったです!

田島悠介

ゆかりちゃんも分からないことがあったら質問してね!

大石ゆかり

分かりました。ありがとうございます!

 

TechAcademyでは、初心者でも最短4週間で、Pythonを使った人工知能(AI)や機械学習の基礎を習得できる、オンラインブートキャンプを開催しています。

また、現役エンジニアから学べる無料体験も実施しているので、ぜひ参加してみてください。