PythonでXPathを利用しXML形式の文書から特定の要素を抽出する方法を現役エンジニアが解説【初心者向け】

初心者向けにPythonでXPathを利用する方法について現役エンジニアが解説しています。XPathとはXML形式の文書から特定の要素を抽出するための言語のことです。Pythonではlxmlというパッケージを使います。Webスクレイピングなどに使うことが出来ます。

TechAcademyマガジンはオンラインのプログラミングスクールTechAcademy [テックアカデミー]が運営する教育×テクノロジーのWebメディアです。初心者でもすぐ勉強できる記事が2,000以上あります。

PythonでXPathを利用する方法について、TechAcademyのメンター(現役エンジニア)が実際のコードを使用して、初心者向けに解説します。

Pythonについてそもそもよく分からないという方は、Pythonとは何なのか解説した記事を読むとさらに理解が深まります。

 

なお本記事は、TechAcademyのオンラインブートキャンプ、Python講座の内容をもとに紹介しています。

 

田島悠介

今回は、Pythonに関する内容だね!

大石ゆかり

どういう内容でしょうか?

田島悠介

PythonでXPathを利用する方法について詳しく説明していくね!

大石ゆかり

お願いします!

 

XPathとは

XPathとは、XML Path Languageの略でXML形式の文書から特定の要素を抽出するための言語のことです。

XMLはHTMLの形式とよく似ており、HTMLにも対応しています。Webからデータ情報を収集する際に用いられるスクレイピングはまさにXPathを使って要素の抽出を行っています。

これからWebスクレイピングを始めたい方はXPathを知っておくといいでしょう。

lxmlのxpath関数の使い方

lxmlはPythonでXML構文を解析するためのパッケージになっています。pipでインストールする必要があるので以下の1行でインストールできます。

pip install lxml

まずは解析したい文書の形式を指定する必要があります。冒頭でも述べたとおり、lxmlではHTMLやXMLのデータを読み込むことができます。

そこで今回は実際のスクレイピングを想定してHTMLを読み込む方法を紹介します。まずは、HTMLを読み込むためにPythonの標準モジュールであるurllibをつかってHTMLをしゅとくします。なお、今回はexample.comを題材にHTMLの読み込みを行います。それでは、example.comのHTMLソースを取得していきます。

from urllib import request

source = request.urlopen("https://example.com")
data = source.read()
print(data.decode())

ここまででexample.comのHTMLの中身を見ることができるようになったと思います。ここからlxmlの出番です。先程読み込んだHTMLのデータを文字列として読み込んで、 html.fromstringでXPathを使える状態にします。

load_html = html.fromstring(str(data))

いよいよHTMLから要素を抽出しますが、ここで抽出するデータをXPathで指定する方法を紹介します。先程urllibで取得したHTMLを見てみます。

<!doctype html>
<html>
    <head>
        <title>Example Domain</title>

        <meta charset="utf-8" />
        <meta http-equiv="Content-type" content="text/html; charset=utf-8" />
        <meta name="viewport" content="width=device-width, initial-scale=1" />
        <style type="text/css">
            body {
                background-color: #f0f0f2;
                margin: 0;
                padding: 0;
                font-family: -apple-system, system-ui, BlinkMacSystemFont, "Segoe UI", "Open Sans", "Helvetica Neue", Helvetica, Arial, sans-serif;
           }
           div {
               width: 600px;
               margin: 5em auto;
               padding: 2em;
               background-color: #fdfdff;
               border-radius: 0.5em;
               box-shadow: 2px 3px 7px 2px rgba(0,0,0,0.02);
           }
           a:link, a:visited {
               color: #38488f;
               text-decoration: none;
           }
           @media (max-width: 700px) {
               div {
                   margin: 0 auto;
                   width: auto;
               }
           }
        </style>
    </head>

    <body>
        <div>
            <h1>Example Domain</h1>
            <p>This domain is for use in illustrative examples in documents. You may use this
            domain in literature without prior coordination or asking for permission.</p>
            <p><a href="https://www.iana.org/domains/example">More information...</a></p>
        </div>
    </body>
</html>

HTMLを書いたことある方ならご存知のことですが、HTMLはタグによってツリー構造になっており、サイトによってその構造が違います。

今回はこの中からh1タグに記載されている内容を取り出してみます。h1タグの中身を取り出すときには、html.xpath関数で//h1と指定すると取り出せます。また、xpath関数の戻り値はリストになっているのでh1データをすべて表示させるときはfor文を使うといいです。更にタグの中身を出すには、.textを付け加えます。

したがって中身を取り出すときは以下のコードになります。

h1_content = load_html.xpath("//h1")
# タグの中身を取得
for content in h1_content:
    print(content.text)

 

[PR] Pythonで挫折しない学習方法を動画で公開中

実際に書いてみよう

先ほど紹介した内容をまとめたソースコードを以下の記載します。

from urllib import request
from lxml import html
source = request.urlopen("https://example.com")
data = source.read()
print(data.decode())
print("\n---------------------------------------\n")
load_html = html.fromstring(str(data))
h1_content = load_html.xpath("//h1")
# タグの中身を取得
for content in h1_content:
    print(content.text)

実行するとHTMLのソースとh1タグで抽出した内容が出力されます。

まとめ

今回はXPathの使い方を簡単なスクレイピングを交えて紹介しました。

この方法を使えばWebスクレイピングを簡単にできます。しかし、実際のサイトはもっと構造が複雑になってくるため、この方法でデータを抽出できなかったりデータに文字化けが出てきたりするので、本格的にスクレイピングをやりたい方は、XPathの他にも文字列操作やエラー処理などを適切に行なっていきましょう。

監修してくれたメンター

メンター三浦

モバイルゲームを運用している会社のエンジニアをしています。趣味でWEB開発やクラウドコンピューティングもやっており、ソフトもハードもなんでもやります。

TechAcademyジュニアではPythonロボティクスコースを担当しています。好きな言語はPython, Node.js。

 

大石ゆかり

内容分かりやすくて良かったです!

田島悠介

ゆかりちゃんも分からないことがあったら質問してね!

大石ゆかり

分かりました。ありがとうございます!

 

TechAcademyでは、初心者でも最短4週間で、Pythonを使った人工知能(AI)や機械学習の基礎を習得できる、オンラインブートキャンプを開催しています。

また、現役エンジニアから学べる無料体験も実施しているので、ぜひ参加してみてください。