icon
icon

PythonでXPathを利用しXML形式の文書から特定の要素を抽出する方法を現役エンジニアが解説【初心者向け】

初心者向けにPythonでXPathを利用する方法について現役エンジニアが解説しています。XPathとはXML形式の文書から特定の要素を抽出するための言語のことです。Pythonではlxmlというパッケージを使います。Webスクレイピングなどに使うことが出来ます。

テックアカデミーマガジンは受講者数No.1のプログラミングスクール「テックアカデミー」が運営。初心者向けにプロが解説した記事を公開中。現役エンジニアの方はこちらをご覧ください。 ※ アンケートモニター提供元:GMOリサーチ株式会社 調査期間:2021年8月12日~8月16日  調査対象:2020年8月以降にプログラミングスクールを受講した18~80歳の男女1,000名  調査手法:インターネット調査

PythonでXPathを利用する方法について、TechAcademyのメンター(現役エンジニア)が実際のコードを使用して、初心者向けに解説します。

Pythonについてそもそもよく分からないという方は、Pythonとは何なのか解説した記事を読むとさらに理解が深まります。

 

なお本記事は、TechAcademyのオンラインブートキャンプ、Python講座の内容をもとに紹介しています。

 

田島悠介

今回は、Pythonに関する内容だね!

大石ゆかり

どういう内容でしょうか?

田島悠介

PythonでXPathを利用する方法について詳しく説明していくね!

大石ゆかり

お願いします!

 

XPathとは

XPathとは、XML Path Languageの略でXML形式の文書から特定の要素を抽出するための言語のことです。

XMLはHTMLの形式とよく似ており、HTMLにも対応しています。Webからデータ情報を収集する際に用いられるスクレイピングはまさにXPathを使って要素の抽出を行っています。

これからWebスクレイピングを始めたい方はXPathを知っておくといいでしょう。

lxmlのxpath関数の使い方

lxmlはPythonでXML構文を解析するためのパッケージになっています。pipでインストールする必要があるので以下の1行でインストールできます。

pip install lxml

まずは解析したい文書の形式を指定する必要があります。冒頭でも述べたとおり、lxmlではHTMLやXMLのデータを読み込むことができます。

そこで今回は実際のスクレイピングを想定してHTMLを読み込む方法を紹介します。まずは、HTMLを読み込むためにPythonの標準モジュールであるurllibをつかってHTMLをしゅとくします。なお、今回はexample.comを題材にHTMLの読み込みを行います。それでは、example.comのHTMLソースを取得していきます。

from urllib import request

source = request.urlopen("https://example.com")
data = source.read()
print(data.decode())

ここまででexample.comのHTMLの中身を見ることができるようになったと思います。ここからlxmlの出番です。先程読み込んだHTMLのデータを文字列として読み込んで、 html.fromstringでXPathを使える状態にします。

load_html = html.fromstring(str(data))

いよいよHTMLから要素を抽出しますが、ここで抽出するデータをXPathで指定する方法を紹介します。先程urllibで取得したHTMLを見てみます。

<!doctype html>
<html>
    <head>
        <title>Example Domain</title>

        <meta charset="utf-8" />
        <meta http-equiv="Content-type" content="text/html; charset=utf-8" />
        <meta name="viewport" content="width=device-width, initial-scale=1" />
        <style type="text/css">
            body {
                background-color: #f0f0f2;
                margin: 0;
                padding: 0;
                font-family: -apple-system, system-ui, BlinkMacSystemFont, "Segoe UI", "Open Sans", "Helvetica Neue", Helvetica, Arial, sans-serif;
           }
           div {
               width: 600px;
               margin: 5em auto;
               padding: 2em;
               background-color: #fdfdff;
               border-radius: 0.5em;
               box-shadow: 2px 3px 7px 2px rgba(0,0,0,0.02);
           }
           a:link, a:visited {
               color: #38488f;
               text-decoration: none;
           }
           @media (max-width: 700px) {
               div {
                   margin: 0 auto;
                   width: auto;
               }
           }
        </style>
    </head>

    <body>
        <div>
            <h1>Example Domain</h1>
            <p>This domain is for use in illustrative examples in documents. You may use this
            domain in literature without prior coordination or asking for permission.</p>
            <p><a href="https://www.iana.org/domains/example">More information...</a></p>
        </div>
    </body>
</html>

HTMLを書いたことある方ならご存知のことですが、HTMLはタグによってツリー構造になっており、サイトによってその構造が違います。

今回はこの中からh1タグに記載されている内容を取り出してみます。h1タグの中身を取り出すときには、html.xpath関数で//h1と指定すると取り出せます。また、xpath関数の戻り値はリストになっているのでh1データをすべて表示させるときはfor文を使うといいです。更にタグの中身を出すには、.textを付け加えます。

したがって中身を取り出すときは以下のコードになります。

h1_content = load_html.xpath("//h1")
# タグの中身を取得
for content in h1_content:
    print(content.text)

 

[PR] Pythonで挫折しない学習方法を動画で公開中

実際に書いてみよう

先ほど紹介した内容をまとめたソースコードを以下の記載します。

from urllib import request
from lxml import html
source = request.urlopen("https://example.com")
data = source.read()
print(data.decode())
print("n---------------------------------------n")
load_html = html.fromstring(str(data))
h1_content = load_html.xpath("//h1")
# タグの中身を取得
for content in h1_content:
    print(content.text)

実行するとHTMLのソースとh1タグで抽出した内容が出力されます。

まとめ

今回はXPathの使い方を簡単なスクレイピングを交えて紹介しました。

この方法を使えばWebスクレイピングを簡単にできます。しかし、実際のサイトはもっと構造が複雑になってくるため、この方法でデータを抽出できなかったりデータに文字化けが出てきたりするので、本格的にスクレイピングをやりたい方は、XPathの他にも文字列操作やエラー処理などを適切に行なっていきましょう。

コラム

コスパとタイパ、両方結果的に良くなる良くなる学び方とは?

「スクールは高いし時間も縛られて効率が悪い」と考える方は多いと思います。
もちろん、時間も費用もかかることは間違いありません。
ただ 結果的に無駄な学びにお金も時間もかける方がリスクが高いという考えもあります。

コスパ・タイパ最適化の参考として、 テックアカデミー卒業生がスクールを選んだ理由 をご紹介します。

  • ・困ったときに、質問や相談できる相手がいるため挫折しなかった
  • ・プロとして必要なスキルのみを深く学べたので無駄がなかった
  • ・副業案件の提供と納品までのサポートがあったので目的を達成できた

安価・短期間で広く浅く学んでも意味がありません。 本当に自分の目的が達成できるか、それが重要です。
自分にどのスキルや学び方が合っているか、どんな学習方法かなど、お気軽に 無料相談 に参加してみませんか?

カウンセラー・現役のプロへ、何でも気軽に無料相談可能。 30分か60分お好きな時間が選べて、かつ3回まで すべて無料で ご利用できます。
無理な勧誘は一切ない ので、お気軽にご参加ください。

今なら相談した方限定の割引・参加特典付き! 無料相談はこちら

監修してくれたメンター

メンター三浦

モバイルゲームを運用している会社のエンジニアをしています。趣味でWEB開発やクラウドコンピューティングもやっており、ソフトもハードもなんでもやります。

TechAcademyジュニアではPythonロボティクスコースを担当しています。好きな言語はPython, Node.js。

 

大石ゆかり

内容分かりやすくて良かったです!

田島悠介

ゆかりちゃんも分からないことがあったら質問してね!

大石ゆかり

分かりました。ありがとうございます!

 

TechAcademyでは、初心者でも、Pythonを使った人工知能(AI)や機械学習の基礎を習得できる、オンラインブートキャンプを開催しています。

また、現役エンジニアから学べる無料体験も実施しているので、ぜひ参加してみてください。

初心者・未経験でもできる。まずはテックアカデミーに相談しよう

プログラミングを独学で学習していて、このように感じた経験はないでしょうか?

  • ・調べてもほしい情報が見つからない
  • ・独学のスキルが実際の業務で通用するのか不安
  • ・目標への学習プランがわからず、迷子になりそう

テックアカデミーでは、このような 学習に不安を抱えている方へ、マンツーマンで相談できる機会を無料で提供 しています。
30分間、オンラインでどんなことでも質問し放題です。

「受けてよかった」と感じていただけるよう カウンセラーやエンジニア・デザイナー があなたの相談に真摯に向き合います。

「自分に合っているか診断してほしい」
「漠然としているが話を聞いてみたい」

こんなささいな悩みでも大丈夫です。

無理な勧誘は一切ありません ので、まずはお気軽にご参加ください。
※体験用のカリキュラムも無料で配布いたします。(1週間限定)

今なら参加者限定の割引特典付き! 無料相談を予約する