多項式回帰と重回帰のどちらを使えばいいか判断基準はありますか【メンターが回答】

「多項式回帰分析と重回帰分析のどちらを使えばいいのかの判断基準がわかりません」そんな機械学習の初心者から寄せられた質問に、TechAcademyの現役エンジニアのメンターが回答しました。

TechAcademyマガジンはオンラインのプログラミングスクールTechAcademy [テックアカデミー]が運営する教育×テクノロジーのWebメディアです。初心者でもすぐ勉強できる記事が2,000以上あります。

※TechAcademyに実際に寄せられた質問に現役エンジニアのメンターが回答しました

大石ゆかり

田島メンター!今、機械学習を勉強しているのですが、重回帰と多項式回帰のどちらを使えばいいかわかりません。判断基準などありますか?

田島悠介

なるほど。じゃあ解説するね。

 

質問

多項式回帰分析と重回帰分析の使い方について聞きたいです。

どういう場合に多項式回帰分析を使い、どういう場合に重回帰を使うのがよいかの判断基準はありますか。

 

また、重回帰と多項式を組み合わせることもあると思います。 それは、どのような場合に組み合わせて使うでしょうか。式がどのようになるかも知りたいです。

背景として、回帰問題を使うときに次数やパラメータの設定はやってみてということが多いので、とても不安に感じます。確かに、やってみてというのが、機械学習の考え、使い方のように思いますが、なにかしらの基準がわかればと思っています。

 

メンターからの回答

回帰問題を解く時には、必ずフィットするモデルを見つけにいくトライアンドエラーの過程を踏むため、ご不安に思う気持ちはよく理解できます。

 

まず、多項式回帰分析と重回帰分析のどちらを選ぶのか、ということですが、多項式回帰は重回帰分析の特殊な例、つまり1変数のみの重回帰分析と捉えることができます。したがって、必然的に1変数のみで回帰分析をしたい場合には多項式回帰分析を選び、複数変数の場合は重回帰分析を用いいることになります。

 

次に、この2つを組み合わせるとどうなるか、という質問ですが、上述の説明でお気づきになったかもしれませんが、重回帰分析の各変数の中身は自由であり、複雑な変数もそれを置き換えて簡単にすることで結局は、 Θ0+Θ1*x1+Θ2*x2・・・ になります。

 

最後にどこまでの次数を使えば良いのか、についてですが、良い例が多項式回帰入門。線形回帰に飽きたらない人への記事の【データの背景を見よ】に書かれています。

ここでは自動車の速度と制動距離の関係を多項式回帰すると最適なモデルは二次多項式回帰であることが示されています。また、物理学的には自動車のエネルギーは速度の二乗に比例するため、制動距離も速度の二乗、つまり二次多項式回帰が最適であろうと予測できることが書かれています。

 

上記、多項式回帰分析か重回帰分析か等のご質問を含めて、回帰分析をされる時には、自分がどんな変数を用いて何を示したいのか、ということに合わせて最適なモデルを予測するということが最も大切です。そうすれば、自然とどの回帰分析を使うべきかも、出てきた結果に対する信頼感も出てきます。ぜひ具体的な例を考えて、予測を立てながら使ってみることをお勧めします。

 

TechAcademyでは現役機械学習エンジニアのメンターが質問にすぐ回答します。

まずは無料体験でメンターに相談してみましょう。