SeleniumとBeautifulsoupを利用してPythonでスクレイピングする方法を現役エンジニアが解説【初心者向け】

初心者向けにSeleniumとBeautifulsoupを利用してPythonでスクレイピングする方法について現役エンジニアが解説しています。SeleniumとはWebブラウザの操作を自動化させるためのライブラリで、Beautifulsoup4とはスクレイピングライブラリです。データを収集することができます。

TechAcademyマガジンはオンラインのプログラミングスクールTechAcademy [テックアカデミー]が運営。初心者向けに解説した記事が4,000以上あります。現役エンジニアの方はこちらをご覧ください。

SeleniumとBeautifulsoupを利用してPythonでスクレイピングする方法について、TechAcademyのメンター(現役エンジニア)が実際のコードを使用して、初心者向けに解説します。

Pythonについてそもそもよく分からないという方は、Pythonとは何なのか解説した記事を読むとさらに理解が深まります。

 

なお本記事は、TechAcademyのオンラインブートキャンプ、Python講座の内容をもとに紹介しています。

 

田島悠介

今回は、Pythonに関する内容だね!

大石ゆかり

どういう内容でしょうか?

田島悠介

SeleniumとBeautifulsoupを利用してPythonでスクレイピングする方法について詳しく説明していくね!

大石ゆかり

お願いします!

 

目次

 

Seleniumとは

Seleniumとは、Webブラウザの操作を自動化させるためのライブラリです。

2004年にThoughtWorks社のJason HugginsによってThoughtWorksの内部ツールとして開発されました。ブラウザ操作の自動化を行うためのスクリプトであるSeleneseでテストを実行することから始まりましたが、Seleneseを使う代わりに汎用的なプログラム言語でもテストを行えるクライアントAPIも提供されています。

現在提供されているのは、

  • Java
  • C#
  • Ruby
  • JavaScript
  • R
  • Python

用のクライアントAPIです。

[PR] Pythonで挫折しない学習方法を動画で公開中

Beautifulsoup4とは

近年は機械学習などのデータを作成する時にWebサイトからのデータを収集するための作業をプログラムを使って半自動化することで大量のデータの取得を効率化させることが多くなりました。そこで使われる手法がスクレイピングです。

Pythonではいくつかのスクレイピングライブラリがありますが、その一つがBeautifulsoup4です

Beautihulsoup4とは、HTMLやXMLの中から必要なデータを抽出するためのPythonライブラリです。HTMLの中身を解析してツリー構造にして目的のコンテンツを取得することができることです。

つまり先程のSeleniumからブラウザを操作して出力された目的のページのHTMLをBeautifulsoup4で取得して中身の構造を解析してプログラムから目的のデータを抽出するという流れがPythonでスクレイピングをやる時によく使われる手法です。ちなみ予め目的のページのURLがわかっている場合はSeleniumの代わりにurllibを使ってHTMLを取得する方法もあります。

実行環境構築手順

では実際にBeautifulsoup4が使えるように実行環境を作っていきましょう。

 

Seleniumのインストール

まずはSeleniumをインストールしていきます。

Seleniumでブラウザの操作をするためには、各ブラウザに対応したドライバーをインストールする必要があります。このドライバーからSeleniumでブラウザを立ち上げて操作を行う流れになります。

今回はChromeで操作を行おうと思いますので、以下のリンクからお使いのOSに合わせて最新のChromeドライバーをインストールします。

Google公式サイト-Chromeドライバー

続いてSeleniumをインストールします。

pip install selenium

Beautifulsoup4のインストール

Beautifulsoup4はpipコマンドでインストールします。

pip install BeautifulSoup

 

実際にスクレイピングしてみよう

それでは実際にスクレイピングをやってみます。今回は技術共有サイトのQiitaからPythonに関連した記事を取得する流れを自動化してみます。

以下のコードを先程インストールしたドライバーと同じフォルダーに保存します。

# coding: utf-8

import time

from selenium import webdriver

from bs4 import BeautifulSoup

url = "http://qiita.com"

driver = webdriver.Chrome("chromedriver.exe")

# ページにアクセス

driver.get(url)

# 検索ボックスを見つけてキーワードを検索

search = driver.find_element_by_class_name("st-Header_searchInput")

search.send_keys("Python")

search.submit()

time.sleep(5)

# 検索先のページのHTMLを取得

html = driver.page_source.encode('utf-8')

soup = BeautifulSoup(html, 'lxml')

results = soup.find_all("h1", class_="searchResult_itemTitle")

# 結果を出力

for result in results:

    href = result.findAll("a")[0].get("href")

    print(url + href)

driver.close()

driver.quit()

上記のコードを実行すると、以下のように検索結果に出力された記事のリンクを表示させます。

まとめ

今回はSeleniumとBeautifulsoupを組み合わせてスクレイピングを行う方法を紹介しました。

ブラウザから目的の操作を行いデータを取得する際にとても便利な方法ですので、データ収集が効率よくなると思います。

ただし、スクレイピングで著作権が関わるコンテンツを取得したり、悪質なクローリングを行うと、違法行為として裁判沙汰になることがあります。また、Twitterなどはガイドラインでスクレイピングを全面的に禁止しているので、マナーを守って正しくスクレイピングを行いましょう。

監修してくれたメンター

メンター三浦

モバイルゲームを運用している会社のエンジニアをしています。趣味でWEB開発やクラウドコンピューティングもやっており、ソフトもハードもなんでもやります。

TechAcademyジュニアではPythonロボティクスコースを担当しています。好きな言語はPython, Node.js。

 

大石ゆかり

内容分かりやすくて良かったです!

田島悠介

ゆかりちゃんも分からないことがあったら質問してね!

大石ゆかり

分かりました。ありがとうございます!

 

TechAcademyでは、初心者でも最短4週間で、Pythonを使った人工知能(AI)や機械学習の基礎を習得できる、オンラインブートキャンプを開催しています。

また、現役エンジニアから学べる無料体験も実施しているので、ぜひ参加してみてください。