RubyでXPathを取得する方法を現役エンジニアが解説【初心者向け】

初心者向けにRubyでXPathを取得する方法について解説しています。XPathはタグを階層構造にして取得したりすることが出来るもので、スクレイピングなどに使用さえます。特定のHTMLタグを取得することが出来ます。

TechAcademyマガジンはオンラインのプログラミングスクールTechAcademy [テックアカデミー]が運営する教育×テクノロジーのWebメディアです。初心者でもすぐ勉強できる記事が2,000以上あります。

RubyでXPathを取得する方法について解説します。

Rubyについてそもそもよく分からないという方は、Rubyとは何なのか解説した記事をまずご覧ください。

 

なお本記事は、TechAcademyのWebアプリケーションオンラインブートキャンプの内容をもとに紹介しています。

 

 

田島悠介

今回は、Rubyに関する内容だね!

大石ゆかり

どういう内容でしょうか?

田島悠介

XPathを取得する方法について詳しく説明していくね!

大石ゆかり

お願いします!

 

XPathとは

XpathとはXML文章の中の要素や属性値を指定することができるようにする言語です。HTMLもXpathを使ってHTML文章の中の要素を指定することができます。

Xpathはツリー構造から特定の要素や属性値を取得するためにロケーションパスを使います。ロケーションパスとはURLのように/html/body/divとして”/”で区切って指定する方法です。

 

XPathを取得する方法

nokogoriというスクレイピングできるRubyのライブラリーを使ってXpathを取得してみましょう。

 

require 'nokogiri'
file1 = File.read(ファイル名)
file2 = Nokogiri::XML(file1)
set = file2.xpath(ロケーションパス)

 

のように読み込まれたファイルに書かれている該当のロケーションパスを取得します。

[PR] Rubyのプログラミングで挫折しない学習方法を動画で公開中

実際に書いてみよう

それでは実際に書いてみましょう!!

 

# diary.html
<html>
  <head>
    <title>
      <h1>日記帳</h1>
    </title>
  </head>
  <body>
    <div>
      <h2>日記内容</h2>
    </div>
      <h2>投稿日</h2>
    <div>
    </div>
  </body>
</html>

 

# diary.rb
require 'nokogiri'
d_file = File.read('diary.html')
file = Nokogiri::XML(d_file)
set = file.xpath('/html/head/title')
p set.text
#$ ruby diary.rb
#=>
#"\n日記帳\n"

 

file.xpath(‘/html/head/title’)
htmlタグの中のheadタグの中のtitleタグを取得しています。

こちらをsetに代入してset.text でテキストを出力しています。\n日記帳\nと出力されました。また、タグの数を数えるsizeメソッドで使われているタグの数も出力することもできます。

 

# diary.rb
require 'nokogiri'
d_file = File.read('diary.html')
file = Nokogiri::XML(d_file)
set = file.xpath('//div')
p set.size
#$ ruby diary.rb
#=> 2

 

こちらは//divで全てのdivタグを取得します。sizeでその数を出力しています。

 

監修してくれたメンター

町田耕

大学卒業後、塾の数学科講師として数年間勤めた後、会社の経営に携わる。

会社経営時代は主に財務関係が中心に担当していたが、インフラエンジニアの妻の勧めもありプログラミングを独学で学び始める。プログラミングのセミナーなど数多く受け、IT関連の受託開発会社に勤めた後、ITシステム開発会社を設立。

現在、システムの請負としての業務を行う傍らテックアカデミーのRuby on Railsのメンターも勤めている。

 

大石ゆかり

内容分かりやすくて良かったです!

田島悠介

ゆかりちゃんも分からないことがあったら質問してね!

大石ゆかり

分かりました。ありがとうございます!

TechAcademyでは初心者でも最短4週間でエンジニアになれるRuby on Railsオンラインブートキャンプを開催しています。

現役エンジニアがパーソナルメンターとして受講生に1人ずつつき、マンツーマンのメンタリングで学習をサポートし、最短4週間でオリジナルWebサービスを開発することが可能です。

また、現役エンジニアから学べる無料のプログラミング体験会も実施しているので、ぜひ参加してみてください。