Pythonで相関係数を求める方法を現役エンジニアが解説【初心者向け】

初心者向けにPythonで相関係数を求める方法について現役エンジニアが解説しています。相関係数とは、統計学や機械学習で使われ、2組のデータ群がどれほど関係しているかを示す指標の1つです。numpy.corrcoef関数を使った方法とpandas.DataFrame.corrメソッドを使った方法を解説します。

TechAcademyマガジンは受講者数No.1のオンラインプログラミングスクールTechAcademy [テックアカデミー]が運営。初心者向けに解説した記事を公開中。現役エンジニアの方はこちらをご覧ください。

監修してくれたメンター

清水 源一郎

企業勤務の研究者として、機械学習やデータサイエンスを活用した製品開発を行っている。
テックアカデミーでは、Pythonコース、AIコース、データサイエンスコースを担当。

Pythonで相関係数を求める方法について、テックアカデミーのメンター(現役エンジニア)が実際のコードを使用して初心者向けに解説します。

目次

そもそもPythonについてよく分からないという方は、Pythonとは何なのか解説した記事を読むとさらに理解が深まります。

 

田島悠介

今回は、Pythonに関する内容だね!

大石ゆかり

どういう内容でしょうか?

田島悠介

Pythonで相関係数を求める方法について詳しく説明していくね!

大石ゆかり

お願いします!

この記事では、Pythonを使ってデータの相関を表す指標である相関係数の計算方法について解説します。

相関係数とは

まずは、相関係数について解説します。

相関係数というのは、2組のデータ群があるときに、それらのデータ群がどれほど関係しているかを示す指標の1つで、統計学や機械学習などといった分野で頻繁に使われるものです。

相関係数は、-1~1までの値を取ります。

1に近いほど「正の相関がある」と言い、一方のデータが増加するともう片方のデータも増加える、といった関係になります。

また、-1に近いほど「負の相関がある」と言い、一方のデータが増えるともう一方のデータは減少する、といった関係になります。

相関係数が0.8、0、-0.8のデータの散布図を図に示します。

相関係数が1に近いものは大まかに右斜上に向かう傾向が見て取れます。

逆に-1に近いものは、右斜下に向かうように見え、相関係数が0のものはデータが単に散らばっているだけに見えます。

このように、相関係数は、データの関連度合いを示すものとして使われます。

相関係数を求める方法

Pythonで相関係数を求める方法はいくつかあります。

ここでは、以下の二つの方法について説明します。

  • numpy.corrcoef()関数を使った方法
  • pandas.DataFrame.corr()メソッドを使った方法

numpy.corrcoef()関数の場合は、以下のようにすることで、「相関行列」というものが返ってきます。

numpy.corrcoef(1つ目のデータ, 2つ目のデータ)

相関行列とは、それぞれの成分が以下の相関係数を表している行列です。

[[1つ目のデータと1つ目のデータ,  1つ目のデータと2つ目のデータ],
 [2つ目のデータと1つ目のデータ, 2つ目のデータと2つ目のデータ]]

なので、相関係数だけを知りたい場合は、該当部分だけを取り出せば良いでしょう。

1つ目のデータと2つ目のデータの相関係数は上の行列で右上、または左下の成分になります。

1つ目のデータと2つ目のデータと2つ目のデータと1つ目のデータの部分には同じ値が入ります。

一方、pandasを使う場合は、データフレームとして相関を求めたい複数の列を持つものを用意して、下記のコードを入力することで、各列の間の相関係数を算出することができます。

データフレーム.corr()

こちらの場合も相関行列が返されます。

[PR] Pythonで挫折しない学習方法を動画で公開中

実際に計算してみよう

それでは、実際にコードを書いて実行してみることで、相関係数をどのようにして求めればよいか確認しましょう。

ここでは、次の散布図のような、xとyのデータの相関係数を求めていきます。

numpyを使う場合は、

# numpyのインポート
import numpy as np

# データを用意
x = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10])
y = np.array([2, 1, 3, 4, 3, 6, 9, 10, 6, 10])

# 相関行列を計算
coef = np.corrcoef(x, y)

# 相関行列を表示
print(coef)

pandasを使う場合は、

# pandasのインポート
import pandas as pd

# 上で使ったデータを用いて、DataFrameを用意
df = pd.DataFrame([x,y]).T

# 相関行列を計算
coef = df.corr()

# 相関行列を表示
print(coef)

となります。それぞれ、

[[1. 0.87901474]
 [0.87901474 1. ]]

 

    0 1
0 1.000000 0.879015
1 0.879015 1.000000

と表示され、相関係数がうまく計算できたことが確認できます。

xとyの相関係数は0.879015と読み取れます。

 

まとめ

この記事では、Pythonで相関係数を算出する方法について解説しました。

データ解析などでは必須の知識なので、必要に応じて参考にしてみてください。

 

大石ゆかり

内容分かりやすくて良かったです!

田島悠介

ゆかりちゃんも分からないことがあったら質問してね!

大石ゆかり

分かりました。ありがとうございます!

 

Pythonを学習中の方へ

これで解説は終了です、お疲れさまでした。

  • つまずかず「効率的に」学びたい
  • 副業や転職後の「現場で使える」知識やスキルを身につけたい

プログラミングを学習していて、このように思ったことはありませんか?

テックアカデミーのPythonコースでは、第一線で活躍する「プロのエンジニア」が教えているので、効率的に実践的なスキルを完全オンラインでしっかり習得できます。

合格率10%の選考を通過した、選ばれたエンジニアの手厚いサポートを受けながら、人工知能(AI)や機械学習の基礎を学べます。

まずは一度、無料体験で学習の悩みや今後のキャリアについて話してみて、「現役エンジニアから教わること」を実感してみてください。

時間がない方、深く知ってから体験してみたい方は、今スグ見られる説明動画から先に視聴することをおすすめします!