RubyとNokogiriを使ってHTMLを解析する方法を現役エンジニアが解説【初心者向け】

初心者向けにRubyとNokogiriを使ってHTMLを解析する方法について現役エンジニアが解説しています。Nokogiriは、XML, HTML文書を解析(パース)するためのRubyライブラリです。使い方はライブラリを読み込み、URLを指定してセレクタやタグを指定します。

TechAcademyマガジンは受講者数No.1のオンラインプログラミングスクールTechAcademy [テックアカデミー]が運営。初心者向けに解説した記事を公開中。現役エンジニアの方はこちらをご覧ください。

RubyとNokogiriを使ってHTMLを解析する方法について、TechAcademyのメンター(現役エンジニア)が実際のコードを使用して初心者向けに解説します。

そもそもRubyについてよく分からないという方は、Rubyとは何なのか解説した記事を読むとさらに理解が深まります。

 

なお本記事は、TechAcademyのオンラインブートキャンプRuby講座の内容をもとに紹介しています。

田島悠介

今回は、Rubyに関する内容だね!

大石ゆかり

どういう内容でしょうか?

田島悠介

RubyとNokogiriを使ってHTMLを解析する方法について詳しく説明していくね!

大石ゆかり

お願いします!

 

Nokogiriとは?

Nokogiriとは、XML, HTML文書を解析(パース)するためのRubyライブラリです。

解析(パース)はHTML文書が一定の文法に従って記述された内容に対して、プログラム内で扱いやすいデータに変換することをさします。

文書の構造を解析し、XPathもしくはCSS3のセレクタを用いて、要素を抽出できます。

Webページのスクレイピング(要素の抽出)に多用されるライブラリです。

HTMLを解析するためにNokogiriをインストールしてみよう

gemコマンドを用いてインストールします。

gem install nokogiri

システムによっては、依存ソフトウェアのインストールが必要なケースがあります。

詳細は公式のインストール説明を参照してみましょう。

 

[PR] Rubyのプログラミングで挫折しない学習方法を動画で公開中

HTMLを解析してみよう

以下、サンプルコードです。

require 'nokogiri'
require 'open-uri'

doc = Nokogiri::HTML(open('https://nokogiri.org/tutorials/installing_nokogiri.html'))

doc.css('nav ul.menu li a', 'article h2').each do |link|
  puts link.content
end

 

実行結果

$ ruby sample.rb 
Install with included libraries (RECOMMENDED)
Install with system libraries
Install with custom / non-standard libraries

 

解説

1,2行目で必要なライブラリを読み込んでいます。

4行目でURLを指定し、HTMLの構造解析を行いました。

6-8行目で、CSSセレクタでHTMLタグを指定し、ループで順に出力しています。

CSSセレクタの一つ目ではメニュー中のリンク要素、2つ目では本文中の見出し要素を指定しました。

 

執筆してくれたメンター

橋本紘希

システムインテグレータ企業勤務のシステムエンジニア。

開発実績: Javaプログラムを用いた業務用Webアプリケーションや、基幹システム用バッチアプリケーションなどの設計構築試験。

 

大石ゆかり

内容分かりやすくて良かったです!

田島悠介

ゆかりちゃんも分からないことがあったら質問してね!

大石ゆかり

分かりました。ありがとうございます!

 

TechAcademyでは、初心者でも最短4週間でRuby on Railsを使ったプログラミングを習得できるオンラインブートキャンプを開催しています。

また、現役エンジニアから学べる無料体験も実施しているのでぜひ参加してみてください。