Pythonのlxmlライブラリの使い方【初心者向け】

初心者向けにPythonのlxmlライブラリの使い方について解説しています。このライブラリを使うことによってxmlやhtml を扱うことができます。導入と各処理の方法について実際に動かしながら学習していきましょう。

TechAcademyマガジンはオンラインのプログラミングスクールTechAcademy [テックアカデミー]が運営する教育×テクノロジーのWebメディアです。初心者でもすぐ勉強できる記事が2,000以上あります。

Pythonのlxmlライブラリの使い方について解説します。

Pythonについてそもそもよく分からないという方は、Pythonとは何なのか解説した記事をまずご覧ください。

 

なお本記事は、TechAcademyのPythonオンライン講座の内容をもとにしています。

 

田島悠介

今回は、Pythonに関する内容だね!

大石ゆかり

どういう内容でしょうか?

田島悠介

lxmlライブラリの使い方について詳しく説明していくね!

大石ゆかり

お願いします!

 

lxmlとは

lxml とは、 Python で xml や html を扱うためのライブラリです。スクレイピングと言って、Webサイトの html を解析して情報を抽出するプログラムを作成する場合などに多く用いられます。

Python で html を解析するには、「htmllib」や「Beautiful Soup」といったモジュールを使う方法がありますが、 lxml は、それらと比較して、より高速・柔軟に html を解析できることが特徴と言われています。

詳しい情報は公式ドキュメントを参考にしてください。

https://lxml.de/

また、「Beautiful Soup」を使用したスクレイピングについては以下の記事も参考にしてください。

Pythonでスクレイピングを行う方法

 

lxmlの使い方

今回は、Requests と lxml を利用する方法を紹介します。

まずはそれぞれのライブラリをインストールしましょう。パソコンが Macならターミナル、Windowsならコマンドプロンプトから以下のコマンドでインストールします。なお、事前に Python のインストールが必要です。

pip install requests
pip install lxml

 

[PR] Pythonで挫折しない学習方法を動画で公開中

実際に書いてみよう

今回のサンプルプログラムでは、Googleニュースのサイトから、ヘッドラインのタイトルの一覧を取得しています。上記でご紹介した「Beautiful Soup」を使用したスクレイピングのプログラムと同様の内容になっていますので、ライブラリによる違いも確認してください。

import requests
import lxml.html

# WebサイトのURLを指定
url = "https://news.google.com/?hl=ja&gl=JP&ceid=JP:ja"

# Requestsを利用してWebページを取得する
r = requests.get(url)

# lxmlを利用してWebページを解析する
html = lxml.html.fromstring(r.text)

# lxmlのfindallを利用して、ヘッドラインのタイトルを取得する
elems = html.findall(".//a[@class='ipQwMb Q7tWef']//span")
for elem in elems:
    print(elem.text)

実行結果は以下のようになります(その時のニュースによって異なります)。

米国:国務長官、訪朝中止へ 「進展ない」トランプ氏指示 - 毎日新聞
米朝首脳会談や訪朝中止に批判 トランプ氏の発言が生んだ誤算も
トランプと金正恩のラブゲームの裏を探る(田中良紹) - Yahoo!ニュース
米国務長官の訪朝中止 トランプ氏、非核化停滞に不満(写真=AP)
【激動・朝鮮半島】米朝「曖昧合意」のツケが表面化 事前協議難航でポンペオ氏訪朝中止
飲酒運転事故おこし失ったもの 人生語る元公務員の思い
「認識の甘さまだ」飲酒運転撲滅へ 3児死亡事故12年
3児死亡事故12年:福岡の現場付近で飲酒検問 - 毎日新聞
飲酒運転「約束のゼロ」きっと 3児死亡事故から12年 九州7県の死者、昨年比5人増
飲酒運転ゼロへ決意新た 福岡・海の中道3児死亡事故から12年
オスプレイ受け入れ 佐賀県知事の裏切りと国の“札束作戦”

 

この記事を監修してくれた方

太田和樹(おおたかずき)
ITベンチャー企業のPM兼エンジニア

普段は主に、Web系アプリケーション開発のプロジェクトマネージャーとプログラミング講師を行っている。守備範囲はフロントエンド、モバイル、サーバサイド、データサイエンティストと幅広い。その幅広い知見を生かして、複数の領域を組み合わせた新しい提案をするのが得意。

開発実績:画像認識技術を活用した駐車場混雑状況把握(実証実験)、音声認識を活用したヘルプデスク支援システム、Pepperを遠隔操作するアプリの開発、大規模基幹系システムの開発・導入マネジメント

地方在住。仕事のほとんどをリモートオフィスで行う。通勤で消耗する代わりに趣味のDIYや家庭菜園、家族との時間を楽しんでいる。

 

大石ゆかり

内容分かりやすくて良かったです!

田島悠介

ゆかりちゃんも分からないことがあったら質問してね!

大石ゆかり

分かりました。ありがとうございます!

オンラインのプログラミングスクールTechAcademyではPythonを使って機械学習の基礎を学ぶPythonオンライン講座を開催しています。

初心者向けの書籍を使って人工知能(AI)や機械学習について学ぶことができます。

現役エンジニアがパーソナルメンターとして受講生に1人ずつつき、マンツーマンのメンタリングで学習をサポートし、最短4週間で習得することが可能です。

また、現役エンジニアから学べる無料のプログラミング体験会も実施しているので、ぜひ参加してみてください。