Pythonで相関係数を求める方法を現役エンジニアが解説【初心者向け】

初心者向けにPythonで相関係数を求める方法について現役エンジニアが解説しています。相関係数とは、統計学や機械学習で使われ、2組のデータ群がどれほど関係しているかを示す指標の1つです。numpy.corrcoef関数を使った方法とpandas.DataFrame.corrメソッドを使った方法を解説します。

テックアカデミーマガジンは受講者数No.1のプログラミングスクール「テックアカデミー」が運営。初心者向けにプロが解説した記事を公開中。現役エンジニアの方はこちらをご覧ください。 ※ アンケートモニター提供元:GMOリサーチ株式会社 調査期間:2021年8月12日~8月16日  調査対象:2020年8月以降にプログラミングスクールを受講した18~80歳の男女1,000名  調査手法:インターネット調査

監修してくれたメンター

清水 源一郎

企業勤務の研究者として、機械学習やデータサイエンスを活用した製品開発を行っている。
テックアカデミーでは、Pythonコース、AIコース、データサイエンスコースを担当。

Pythonで相関係数を求める方法について、テックアカデミーのメンター(現役エンジニア)が実際のコードを使用して初心者向けに解説します。

目次

1時間でできる無料体験!

 

そもそもPythonについてよく分からないという方は、Pythonとは何なのか解説した記事を読むとさらに理解が深まります。

 

田島悠介

今回は、Pythonに関する内容だね!

大石ゆかり

どういう内容でしょうか?

田島悠介

Pythonで相関係数を求める方法について詳しく説明していくね!

大石ゆかり

お願いします!

 

この記事では、Pythonを使ってデータの相関を表す指標である相関係数の計算方法について解説します。

 

相関係数とは

まずは、相関係数について解説します。

相関係数というのは、2組のデータ群があるときに、それらのデータ群がどれほど関係しているかを示す指標の1つで、統計学や機械学習などといった分野で頻繁に使われるものです。

相関係数は、-1~1までの値を取ります。

1に近いほど「正の相関がある」と言い、一方のデータが増加するともう片方のデータも増加する、といった関係になります。

また、-1に近いほど「負の相関がある」と言い、一方のデータが増えるともう一方のデータは減少する、といった関係になります。

相関係数が0.8、0、-0.8のデータの散布図を図に示します。

相関係数が1に近いものは大まかに右斜上に向かう傾向が見て取れます。

逆に-1に近いものは、右斜下に向かうように見え、相関係数が0のものはデータが単に散らばっているだけに見えます。

このように、相関係数は、データの関連度合いを示すものとして使われます。

 

相関係数を求める方法

Pythonで相関係数を求める方法はいくつかあります。

ここでは、以下の2つの方法について説明します。

  • numpy.corrcoef()関数を使った方法
  • pandas.DataFrame.corr()メソッドを使った方法

 

numpy.corrcoef()関数の場合は、以下のようにすることで、「相関行列」というものが返ってきます。

numpy.corrcoef(1つ目のデータ, 2つ目のデータ)

相関行列とは、それぞれの成分が以下の相関係数を表している行列です。

[[1つ目のデータと1つ目のデータ,  1つ目のデータと2つ目のデータ],
 [2つ目のデータと1つ目のデータ, 2つ目のデータと2つ目のデータ]]

なので、相関係数だけを知りたい場合は、該当部分だけを取り出せば良いでしょう。

1つ目のデータと2つ目のデータの相関係数は上の行列で右上、または左下の成分です。

1つ目のデータと2つ目のデータと、2つ目のデータと1つ目のデータの部分には同じ値が入ります。

 

一方、pandasを使う場合は、データフレームとして相関を求めたい複数の列を持つものを用意して、下記のコードを入力することで、各列の間の相関係数を算出できます。

データフレーム.corr()

こちらの場合も相関行列が返されます。

 

[PR] Pythonで挫折しない学習方法を動画で公開中

実際に計算してみよう

それでは、実際にコードを書いて実行してみることで、相関係数をどのようにして求めればよいか確認しましょう。

ここでは、次の散布図のような、xとyのデータの相関係数を求めていきます。

 

numpyを使う場合は、以下の通りです。

# numpyのインポート
import numpy as np

# データを用意
x = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10])
y = np.array([2, 1, 3, 4, 3, 6, 9, 10, 6, 10])

# 相関行列を計算
coef = np.corrcoef(x, y)

# 相関行列を表示
print(coef)

 

pandasを使う場合は、以下の通りです。

# pandasのインポート
import pandas as pd

# 上で使ったデータを用いて、DataFrameを用意
df = pd.DataFrame([x,y]).T

# 相関行列を計算
coef = df.corr()

# 相関行列を表示
print(coef)

 

それぞれ下記の通り表示され、相関係数がうまく計算できたことが確認できます。

[[1. 0.87901474]
 [0.87901474 1. ]]

 

    0 1
0 1.000000 0.879015
1 0.879015 1.000000

 

xとyの相関係数は0.879015と読み取れます。

 

コラム

実は私も!?独学で損する人の特徴

「スクールは高いから独学で成功する」という気持ちの方は多いと思います。
もちろんその方が金額は低く抑えられるでしょう。
ただ 独学には向き不向きがあり、実はスクールが向いている人も大勢います。

そんな方のために参考として、 テックアカデミー卒業生がスクールを選んだ理由 をご紹介します。

  • ・困って挫折しそうなときに、質問や相談できる相手がいる環境で学んでいきたいなと思った
  • ・わかった気になっているだけだったので、自分を追い込む環境に置いた方がいいと感じた
  • ・スクールのカリキュラムで市場に求められるスキルを学ぶべきと思った

少しでも当てはまる部分があれば、 スクールが向いているかもしれません。
お試しのつもりで、まずは一度 無料相談 に参加してみませんか?

現役エンジニア・デザイナーに何でも気軽に相談できる30分すべて無料で できます。
無理な勧誘は一切ない ので、お気軽にご参加ください。

今なら相談した方限定の割引・参加特典付き! 無料相談はこちら

まとめ

この記事では、Pythonで相関係数を算出する方法について解説しました。

データ解析などでは必須の知識なので、必要に応じて参考にしてみてください。

 

大石ゆかり

内容が分かりやすくて良かったです!

田島悠介

ゆかりちゃんも分からないことがあったら質問してね!

大石ゆかり

分かりました。ありがとうございます!

 

Pythonを学習中の方へ

これで解説は終了です、お疲れさまでした。

  • つまずかず「効率的に」学びたい
  • 副業や転職後の「現場で使える」知識やスキルを身につけたい

プログラミングを学習していて、このように思ったことはありませんか?

テックアカデミーのPythonコースでは、第一線で活躍する「プロのエンジニア」が教えているので、効率的に実践的なスキルを完全オンラインでしっかり習得できます。

合格率10%の選考を通過した、選ばれたエンジニアの手厚いサポートを受けながら、人工知能(AI)や機械学習の基礎を学べます。

まずは一度、無料体験で学習の悩みや今後のキャリアについて話してみて、「現役エンジニアから教わること」を実感してみてください。

時間がない方、深く知ってから体験してみたい方は、今スグ見られる説明動画から先に視聴することをおすすめします!

初心者・未経験でもできる。まずはテックアカデミーに相談しよう

プログラミングを独学していて、このように感じた経験はないでしょうか?

  • ・調べてもほしい情報が見つからない
  • ・独学のスキルが実際の業務で通用するのか不安
  • ・目標への学習プランがわからず、迷子になりそう

テックアカデミーでは、このような 学習に不安を抱えている方へ、現役エンジニア講師とマンツーマンで相談できる機会を無料で提供 しています。
30分間、オンラインでどんなことでも質問し放題です。

「受けてよかった」と感じていただけるよう 厳しい試験を通過した講師 があなたの相談に真摯に向き合います。

「ただ気になることを相談したい」
「漠然としているがプロの話を聞いてみたい」

こんな気持ちでも大丈夫です。

無理な勧誘は一切ありません ので、まずはお気軽にご参加ください。
※体験用のカリキュラムも無料で配布いたします。(1週間限定)

今なら参加者限定の割引特典付き! 無料相談を予約する