Rubyの正規表現で文字列の抽出を行う方法【初心者向け】

初心者向けにRubyの正規表現で文字列の抽出を行う方法について解説しています。文字列から指定の条件に合う部分を抜き出す方法について、実際にサンプルコードを書いて説明しているので、確認しながら学習しましょう。

TechAcademyマガジンはオンラインのプログラミングスクールTechAcademy [テックアカデミー]が運営する教育×テクノロジーのWebメディアです。初心者でもすぐ勉強できる記事が2,000以上あります。

Rubyの正規表現で文字列の抽出を行う方法について解説します。

Rubyについてそもそもよく分からないという方は、Rubyとは何なのか解説した記事をまずご覧ください。

 

なお本記事は、TechAcademyのWebアプリケーションオンラインブートキャンプの内容をもとに紹介しています。

 

田島悠介

今回は、Rubyに関する内容だね!

大石ゆかり

どういう内容でしょうか?

田島悠介

正規表現で文字列の抽出を行う方法について詳しく説明していくね!

大石ゆかり

お願いします!

 

正規表現とは

正規表現はある文字列のパターンを表現するための表現方法で、一つの正規表現で複数の文字列を表現することになります。

つまり、一つの文字列が複数の文字列と等価であるということが言えるのが正規表現です。

Ruby では `/` で囲まれた中が正規表現として評価されます。 `/regexp/` というような書き方をします。

とはいっても、実際に利用しなければよくわからないでしょう。なので、正規表現の代表的な使い方である文字列からの抽出をここでは紹介します。

 

正規表現で文字列を抽出する方法(=~演算子、!~演算子など)

ある文字列の中から、特定の条件にマッチする文字列だけを抜き出したいとします。その時には以下のメソッドや演算子が利用できます。

rb

if string =~ /regexp/
  puts $&
end

if mo = string.match(/regexp/)
  puts mo[0]
end

if string !~ /regexp/
  puts 'No Match!'
end

`=~` は `string` に `/regexp/` にマッチしたものがあれば `true` を返却し、なければ `false` を返却します。マッチしたものがあった場合は `$&` や `$1` といったグローバル変数にアクセスすることで、そのマッチ結果を取得できます。

`match` はStringクラスに存在するメソッドでマッチするものがあれば `MatchData` オブジェクトを返却し、そうでなければ `nil` を返却します。

MatchData オブジェクトはマッチした文字列に順番にアクセスできるので `[0]` を利用します。

`!~` は `=~` の否定となり、つまりマッチしたものがなければ `true` を返却します。この場合はマッチしたものがないはずなので、 `$&` といったグローバル変数には何も値は入っていません。

 

[PR] Rubyのプログラミングで挫折しない学習方法を動画で公開中

実際に書いてみよう

よく利用される正規表現として、 ユーザーの入力が携帯電話番号かどうかを判定するというものがあるのでこちらを記述してみましょう。

日本国内の携帯電話(PHP含む)は先頭が `070` か `080` か `090` で始まり、その後にハイフン、そして四桁の数字、ハイフン、四桁の数字となります。

これを正規表現で記述すると `/(070|080|090)-\d{4}-\d{4}/` となります。ではこれを利用して、

rb

regexp = /(070|080|090)-\d{4}-\d{4}/
phone = '090-1234-5678'
tel = '03-1234-5678'
unknown = '+81-090-1234-5678'

def correct(number)
  puts "#{number} is phone number"
end

correct($&) if phone =~ regexp #=> "090-1234-5678 is phone number"
correct($&) if tel =~ regexp
correct($&) if unknown =~ regexp #=> "090-1234-5678 is phone number"

実際に `correct` が実行されるのは `phone` と `unknown` の場合です。 `unknown` は `+81`、つまり国際電話識別番号がついた日本の携帯電話になります。

また、今回の正規表現は先頭から末尾まで完全に一致している必要が無い記述方式のため、この場合もマッチし、マッチした部分が取得できます。

正規表現はその表現方法が多様なため、正しく利用するのはとても難しいものになります。

ただし、正しい知識を身につけて適切な箇所で利用できればこれほど強力なツールも類を見ません。是非活用できるようになりましょう。

 

監修してくれたメンター

大塚 颯斗

Ruby on Rails, PHP, Go を中心としたウェブアプリケーションエンジニアとして都内のウェブサービスを提供する企業に在籍。
最近はPHPを主に書きながら、オブジェクト指向をうまく適用していくことに関心を寄せています。

家で飼っている猫が好きだが、何故かすぐに猫に攻撃されて嫌われているかもしれない、というのが悩み。

 

大石ゆかり

内容分かりやすくて良かったです!

田島悠介

ゆかりちゃんも分からないことがあったら質問してね!

大石ゆかり

分かりました。ありがとうございます!

TechAcademyでは初心者でも最短4週間でエンジニアになれるRuby on Railsオンラインブートキャンプを開催しています。

現役エンジニアがパーソナルメンターとして受講生に1人ずつつき、マンツーマンのメンタリングで学習をサポートし、最短4週間でオリジナルWebサービスを開発することが可能です。

また、現役エンジニアから学べる無料のプログラミング体験会も実施しているので、ぜひ参加してみてください。