icon
icon

RubyでXPathを取得する方法を現役エンジニアが解説【初心者向け】

初心者向けにRubyでXPathを取得する方法について解説しています。XPathはタグを階層構造にして取得したりすることが出来るもので、スクレイピングなどに使用さえます。特定のHTMLタグを取得することが出来ます。

テックアカデミーマガジンは受講者数No.1のプログラミングスクール「テックアカデミー」が運営。初心者向けにプロが解説した記事を公開中。現役エンジニアの方はこちらをご覧ください。 ※ アンケートモニター提供元:GMOリサーチ株式会社 調査期間:2021年8月12日~8月16日  調査対象:2020年8月以降にプログラミングスクールを受講した18~80歳の男女1,000名  調査手法:インターネット調査

RubyでXPathを取得する方法について解説します。

 
そもそもRubyについてよく分からないという方は、Rubyとは何なのか解説した記事を読むとさらに理解が深まります。

なお本記事は、TechAcademyのオンラインブートキャンプRuby講座の内容をもとに紹介しています。

 

田島悠介

今回は、Rubyに関する内容だね!

大石ゆかり

どういう内容でしょうか?

田島悠介

XPathを取得する方法について詳しく説明していくね!

大石ゆかり

お願いします!

 

XPathとは

XpathとはXML文章の中の要素や属性値を指定することができるようにする言語です。HTMLもXpathを使ってHTML文章の中の要素を指定することができます。

Xpathはツリー構造から特定の要素や属性値を取得するためにロケーションパスを使います。ロケーションパスとはURLのように/html/body/divとして”/”で区切って指定する方法です。

 

XPathを取得する方法

nokogoriというスクレイピングできるRubyのライブラリーを使ってXpathを取得してみましょう。

 

require 'nokogiri'
file1 = File.read(ファイル名)
file2 = Nokogiri::XML(file1)
set = file2.xpath(ロケーションパス)

 

のように読み込まれたファイルに書かれている該当のロケーションパスを取得します。

[PR] Rubyのプログラミングで挫折しない学習方法を動画で公開中

実際に書いてみよう

それでは実際に書いてみましょう!!

 

# diary.html
<html>
  <head>
    <title>
      <h1>日記帳</h1>
    </title>
  </head>
  <body>
    <div>
      <h2>日記内容</h2>
    </div>
      <h2>投稿日</h2>
    <div>
    </div>
  </body>
</html>

 

# diary.rb
require 'nokogiri'
d_file = File.read('diary.html')
file = Nokogiri::XML(d_file)
set = file.xpath('/html/head/title')
p set.text
#$ ruby diary.rb
#=>
#"n日記帳n"

 

file.xpath(‘/html/head/title’)
htmlタグの中のheadタグの中のtitleタグを取得しています。

こちらをsetに代入してset.text でテキストを出力しています。n日記帳nと出力されました。また、タグの数を数えるsizeメソッドで使われているタグの数も出力することもできます。

 

# diary.rb
require 'nokogiri'
d_file = File.read('diary.html')
file = Nokogiri::XML(d_file)
set = file.xpath('//div')
p set.size
#$ ruby diary.rb
#=> 2

 

こちらは//divで全てのdivタグを取得します。sizeでその数を出力しています。

 

監修してくれたメンター

町田耕

大学卒業後、塾の数学科講師として数年間勤めた後、会社の経営に携わる。

会社経営時代は主に財務関係が中心に担当していたが、インフラエンジニアの妻の勧めもありプログラミングを独学で学び始める。プログラミングのセミナーなど数多く受け、IT関連の受託開発会社に勤めた後、ITシステム開発会社を設立。

現在、システムの請負としての業務を行う傍らテックアカデミーのRuby on Railsのメンターも勤めている。

 

大石ゆかり

内容分かりやすくて良かったです!

田島悠介

ゆかりちゃんも分からないことがあったら質問してね!

大石ゆかり

分かりました。ありがとうございます!

 

TechAcademyでは、初心者でもRuby on Railsを使ったプログラミングを習得できるオンラインブートキャンプRuby講座を開催しています。

挫折しない学習方法を知れる説明動画や、現役エンジニアとのビデオ通話とチャットサポート、学習用カリキュラムを体験できる無料体験も実施しているので、ぜひ参加してみてください。

初心者・未経験でもできる。まずはテックアカデミーに相談しよう

プログラミングを独学で学習していて、このように感じた経験はないでしょうか?

  • ・調べてもほしい情報が見つからない
  • ・独学のスキルが実際の業務で通用するのか不安
  • ・目標への学習プランがわからず、迷子になりそう

テックアカデミーでは、このような 学習に不安を抱えている方へ、マンツーマンで相談できる機会を無料で提供 しています。
30分間、オンラインでどんなことでも質問し放題です。

「受けてよかった」と感じていただけるよう カウンセラーやエンジニア・デザイナー があなたの相談に真摯に向き合います。

「自分に合っているか診断してほしい」
「漠然としているが話を聞いてみたい」

こんなささいな悩みでも大丈夫です。

無理な勧誘は一切ありません ので、まずはお気軽にご参加ください。
※体験用のカリキュラムも無料で配布いたします。(1週間限定)

今なら参加者限定の割引特典付き! 無料相談を予約する