HTMLファイルの解析方法を現役デザイナーが解説【初心者向け】

初心者向けにHTMLファイルの解析方法について解説しています。ブラウザのデベロッパーツールを利用することで、HTMLとCSSの解析を行うことができます。デベロッパーツールの基本操作と解析の手順を覚えましょう。

TechAcademyマガジンはオンラインのプログラミングスクールTechAcademy [テックアカデミー]が運営。初心者向けに解説した記事が4,000以上あります。現役エンジニアの方はこちらをご覧ください。

HTMLファイルの解析方法について、TechAcademyのメンター(現役エンジニア)が実際のコードを使用して初心者向けに解説します。

そもそも、HTMLの記述方法がわからない場合は、 HTMLの書き方について解説した記事を読むとさらに理解が深まります。

 

なお本記事は、TechAcademyのオンラインブートキャンプ、Webデザイン講座のHTMLカリキュラムをもとに執筆しています。

 

田島悠介

今回は、HTMLに関する内容だね!

大石ゆかり

どういう内容でしょうか?

田島悠介

HTMLファイルの解析方法について詳しく説明していくね!

大石ゆかり

お願いします!

 

HTML解析(HTMLファイルの解析)とは

各ブラウザのデベロッパーツールと呼ばれる検証機能を利用し、そのブラウザで表示されているのhtmlファイルとcssファイルのコードを閲覧し、解析していくことができます。クロームやIEなどそれぞれのブラウザでデベロッパーツールを利用することで見ることができ、それらのコーディングをブラウザ上で書き換えることができます。
どのようなコンテンツ構成になっているかを記述されているコードを見て確認することができ、またパソコン画面やスマホ画面などの任意のサイズの画面でどのように表示されているかを確認することも可能となっています。
また、Webスクレイピングと呼ばれるWebからデータを収集、特定データの抽出することで解析することも可能となります。スクレイピングはタイトルなど任意の部分だけを抽出したりすることが可能となり、それらのデータを元に修正や別のコンテンツを作成することへ利用ができるようになります。

 

HTML解析の方法

デベロッパーツールでの解析はショートカットがあり、WindowsではF12、MacではControl + Option + Iでブラウザ上に表示できるようになります。表示されたElementsを見るとHTMLで書かれたコードが表示されており、任意の加筆修正をすることでhtml表示のテストをすることもできます。
同時にCSSも表示されているので既存のページで使われているコードを見て解析することができ、大きさや色、その他の属性などのテストも可能となります。
これらはブラウザ表示を更新するだけで元のブラウザページに戻るため解析方法としてはとても利用しやすいものになります。Webスクレイピングの方法としてはRubyやPython、Javaなどのプログラミング言語を使用して抜き出していきます。これらのプラグラミング言語にはライブラリと呼ばれる膨大なプラグラムの書かれた拡張機能を利用することができます。
これらのライブラリをインストールし、プログラミングのコードを記述することで任意の抽出などが可能となります。

 

[PR] HTML/CSSで挫折しない学習方法を動画で公開中

HTML解析に役立つツールの紹介

 スクレイピングの方法として各ライブラリを利用する方法がありますが、それぞれの言語で利用するライブラリは別のものなので整理していきます。

Rubyはnokogiri、PythonはBeautifulSoup4、Javaではjsoupなどそれぞれありますが、特徴がそれぞれ違うライブラリが各言語に存在するため代表的なものから利用し、スクレイピングに触れていくことが良いでしょう。

 

実際に解析してみよう

ブラウザのデベロッパーツールを利用してTECHACADEMYのホームページのhtmlファイルのコードを確認します。コーディングの中のtitleの要素を探し出し、この後にスクレイピングされた結果と同じであるか確認をしていきます。
スクレイピングはRubyを利用し、ライブラリはnokogiriを利用しています。nokogiriをインストールした後にtest.rbというファイルを作成し、以下のように記述します。
(test.rb)
require 'open-uri'

require 'nokogiri'

url = 'https://techacademy.jp/'

charset = nil

html = open(url) do |f|

  charset = f.charset

  f.read

end

doc = Nokogiri::HTML.parse(html, nil, charset)

puts doc.title

 

ターミナルで、

ruby test.rb

として実行した際にターミナルに下記の抽出結果が表示され、先ほどのデベロッパーツールで確認したhtmlのtitleと同じであれば成功です。

 

監修してくれたメンター

木村勇土

TechAcademyの現役メンター。

現在は行政書士事務所を運営しており、お客様にはプログラマーやフリーランサーも多い。WordPressを中心とした自社のWebサイトの修正などを行なっている。

 

大石ゆかり

内容分かりやすくて良かったです!

田島悠介

ゆかりちゃんも分からないことがあったら質問してね!

大石ゆかり

分かりました。ありがとうございます!

TechAcademyでは初心者でも、最短4週間でオリジナルWebサイトを公開できる、オンラインブートキャンプを開催しています。

また、現役エンジニアから学べる無料体験も実施しているので、ぜひ参加してみてください。