WindowsOSでのPythonにおけるmecabの利用方法を現役エンジニアが解説【初心者向け】

初心者向けにWindowsOSでのPythonにおけるmecabの利用方法について現役エンジニアが解説しています。MeCabとは京都大学とNTT共同研究を通じて開発されたオープンソースの形態素解析エンジンです。単語を品詞に分解する処理を行います。Windowsのコマンドプロンプトで実行してみましょう。

TechAcademyマガジンはオンラインのプログラミングスクールTechAcademy [テックアカデミー]が運営する教育×テクノロジーのWebメディアです。初心者でもすぐ勉強できる記事が2,000以上あります。

WindowsOSでのPythonにおけるmecabの利用方法について、TechAcademyのメンター(現役エンジニア)が実際のコードを使用して、初心者向けに解説します。

Pythonについてそもそもよく分からないという方は、Pythonとは何なのか解説した記事を読むとさらに理解が深まります。

 

なお本記事は、TechAcademyのオンラインブートキャンプ、Python講座の内容をもとに紹介しています。

 

田島悠介

今回は、Pythonに関する内容だね!

大石ゆかり

どういう内容でしょうか?

田島悠介

WindowsOSでのPythonにおけるmecabの利用方法について詳しく説明していくね!

大石ゆかり

お願いします!

 

MeCabとは?

MeCabとは京都大学情報学研究科、日本電信電話株式会社コミュニケーション科学基礎研究所 の共同研究ユニットプロジェクトを通じて開発されたオープンソース 形態素解析エンジンです。

言語, 辞書,コーパスに依存しない汎用的な設計を 基本方針としており、C,C++,Java,Python等の言語に対応したライブラリも提供されています。

また、自分で辞書を作成して解析の設定をできることから、日本語の形態素解析ソフトの中で最もよく使われています。ちなみに名前の由来は作者の好物からきています。

形態素解析を理解しよう

形態素解析とは、自然言語処理の分野で前処理として行われる手法です。対象となる言語の文法や単語の品詞情報をもとに、文章を分解していく解析です。

例えば、「すもももももももものうち」という文章をMeCabで形態素解析すると以下の実行結果が出力されます。

すもも スモモ すもも 名詞-一般
も モ も 助詞-係助詞
もも モモ もも 名詞-一般
も モ も 助詞-係助詞
もも モモ もも 名詞-一般
の ノ の 助詞-連体化
うち ウチ うち 名詞-非自立-副詞可能

このように分解した単語のよみがなと品詞が出力されるということになります。

この技術は例えばgoogle検索を行う際に文章の中から単語を抽出して検索アルゴリズムにかけるときに使われています。また、自然言語処理を取り入れた機械学習を行う際には一度形態素解析を行って文章を単語で分解し各単語の品詞を意味を抜き出した上で学習を行うことが一般的です。

[PR] Pythonで挫折しない学習方法を動画で公開中

MeCabのインストール

ここからはMeCabをインストールしていく方法を解説していきます。

パッケージのダウンロード

それでは、MeCabをインストールしていきます。

今回はWindowsでインストール方法を紹介します。まずは以下のサイトからWindows用のMeCabパッケージをダウンロードします(Binary package for MS-Windowsの項目にあるexeファイルをダウンロードします)。

github-mecab

ダウンロードしたパッケージを実行するとMeCabのインストールします。

なお、Windows版では、コンパイル済みの辞書も合わせてインストールされます。設定は基本的にはデフォルトのままで大丈夫ですが、途中でMeCabのインストール先を聞かれたときには、そのインストール先はこのあとのパスの設定で使うので、忘れずにメモしておきましょう。

Mecabのインストール方法。パスを設定するためにインストール先のアドレスについて確認しておきましょう。

パスを通す

インストールを終えたらMeCabをコマンドラインで使えるようにするためにパスを通します。以下のコマンドを実行しMeCabの実行ファイルのパスを通しておきましょう。

SETX /M PATH "%PATH%;【MeCabのインストール先】\bin"

 

MeCabの使い方

インストールを終えたら今度はコマンドラインでMeCabを動かしてみましょう。コマンドプロンプトかPowerShellを起動してください。コマンドラインで使う際は、以下の1行を実行するだけでMeCabを実行できます。

mecab

すると、コマンドラインから入力できる状態になるので、何か日本語を入力してみましょう。

こんにちは
こんにちは 險伜捷,荳€闊ャ,*,*,*,*,*
EOS

結果が文字化けするかと思いますが、動作はしています。これはコマンドプロンプトやPowerShellはShift-JISであるために起こるエラーです。そこで以下の1行を実行してコマンドプロンプトやPowerShellの文字コードをUTF-8に変換します。

chcp 65001

これで文字コードがUTF-8になりました。それでは、以下の1行を実行して形態素解析をしてみましょう。

echo こんにちは | mecab

以下の実行結果が出力されたら成功です。

こんにちは 感動詞,*,*,*,*,*,こんにちは,コンニチハ,コンニチワ
EOS

 

PythonでMeCabを使ってみよう

続いてPythonでMeCabを動かしてみましょう。冒頭でも述べたようにMeCabにはPython用バインディングが提供されています。

バインディングとは、外部ライブラリを各プログラミング言語で使用できるようにするインターフェースのことです。Windows用にはmecab-python-windowsというものが提供されています。早速以下の1行を実行して、MeCabのPythonバインディングをインストールしましょう。

pip install mecab

インストールを終えたらPythonのコマンドラインツールを立ち上げてMeCabをインポートします。

import MeCab

エラーが出なければMeCabは正常にインストール出来ています。続けて以下の2行を実行してみましょう。

m = MeCab.Tagger ("-Ochasen")
print(m.parse ("すもももももももものうち"))

すると先程同様に以下の実行結果が出力されます。

すもも スモモ すもも 名詞-一般
も モ も 助詞-係助詞
もも モモ もも 名詞-一般
も モ も 助詞-係助詞
もも モモ もも 名詞-一般
の ノ の 助詞-連体化
うち ウチ うち 名詞-非自立-副詞可能

 

監修してくれたメンター

メンター三浦

モバイルゲームを運用している会社のエンジニアをしています。趣味でWEB開発やクラウドコンピューティングもやっており、ソフトもハードもなんでもやります。

TechAcademyジュニアではPythonロボティクスコースを担当しています。好きな言語はPython, Node.js。

 

大石ゆかり

内容分かりやすくて良かったです!

田島悠介

ゆかりちゃんも分からないことがあったら質問してね!

大石ゆかり

分かりました。ありがとうございます!

 

TechAcademyでは、初心者でも最短4週間で、Pythonを使った人工知能(AI)や機械学習の基礎を習得できる、オンラインブートキャンプを開催しています。

また、現役エンジニアから学べる無料体験も実施しているので、ぜひ参加してみてください。