Python3でMeCabを使う方法を現役エンジニアが解説【初心者向け】

初心者向けにPython3でMeCabを使う方法について現役エンジニアが解説しています。MeCabは形態素解析のライブラリで、文章を最小単位の構成要素に分解することが出来ます。他に辞書やパッケージをインストールして、Python3で形態素解析を行ってみましょう。

TechAcademyマガジンはオンラインのプログラミングスクールTechAcademy [テックアカデミー]が運営する教育×テクノロジーのWebメディアです。初心者でもすぐ勉強できる記事が2,000以上あります。

Python3でMeCabを使う方法について解説します。

Pythonについてそもそもよく分からないという方は、Pythonとは何なのか解説した記事をまずご覧ください。

 

なお本記事は、TechAcademyのPythonオンライン講座の内容をもとにしています。

 

田島悠介

今回は、Pythonに関する内容だね!

大石ゆかり

どういう内容でしょうか?

田島悠介

Python3でMeCabを使う方法について詳しく説明していくね!

大石ゆかり

お願いします!

 

MeCabとは

MeCabとは、日本で開発された「形態素解析エンジン」です。形態素解析というのは、自然言語処理の手法の一つで、文章をその最小単位の構成要素に分解していく手法のことです。

例えば、

「すもももももももものうち」

という文章を形態素解析すると、

「すもも / も / もも / も / もも / の / うち」

という形で文章の構成要素に分解することができます。

このような処理は自然言語処理とよばれる分野で非常に重要になってきます。自然言語処理の例であるGoogleアシスタントやSiriなどの音声認識では、認識した文章を形態素解析して人工知能と組み合わせることで様々な処理をおこなっています。

今回はこのMeCabの使い方について紹介します。

HomebrewでMeCabと辞書をインストールする

まずは、ターミナルで次のコマンドを実行することでMeCabと辞書ファイル(mecab-ipa)をインストールします。

$ brew install mecab
$ brew install mecab-ipadic

インストールが終了したら、

$ mecab

としてMeCabが起動するのを確認できたら、インストール完了です。

試しに文章を打ち込んでみると形態素解析をしたものが表示されることが確認できるのでやってみてください。

[PR] Pythonで挫折しない学習方法を動画で公開中

mecab-ipadic-NEologdをインストールする

mecab-ipaという辞書だけではうまく形態素解析できないことがよくあります。

それは、地名や人名などの固有名詞が辞書に登録されていないからです。そこで、mecab-ipadic-NEologdという辞書もインストールします。

公式サイト(github)にインストール方法が載っています。

以下のコマンドを順に実行すれば、mecab-ipadic-NElogdをインストールすることができます。

$ cd ~/Downloads
$ git clone --depth 1 https://github.com/neologd/mecab-ipadic-neologd.git
$ cd mecab-ipadic-neologd
$ ./bin/install-mecab-ipadic-neologd -h

これを実行して、

[install-mecab-ipadic-NEologd] : Install completed.

と表示されればインストール完了です。

pipでmecab-python3をインストールする

続いては、pythonからmecabを使うために、mecab-python3というパッケージをインストールします。次のコマンドを実行すると、インストールができます。

$ pip install mecab-python3

エラーが出る場合は

$ brew install swig

を実行してからインストールしてみてください。

Successfully installed mecab-python3-0.996.2

 

実際に形態素解析してみよう

ここまできてようやく実際の形態素解析ができます。

#MeCabをインストール
import MeCab

#形態素解析したい文章
data = "すもももももももものうち"

#MeCabを呼び出す(Taggerの引数は辞書の指定)
mecab = MeCab.Tagger('-d /usr/local/lib/mecab/dic/mecab-ipadic-neologd').parse(data)
#改行ごとに文章を分割
lines = mecab.split('\n')
#各行ごとに文章の構成単位に分解
items = (re.split('[\t]',line) for line in lines)
#形態素解析した結果を表示
for item in items:
    print(item)

これを実行すれば、

['すもも', '名詞,一般,*,*,*,*,すもも,スモモ,スモモ']
['も', '助詞,係助詞,*,*,*,*,も,モ,モ']
['もも', '名詞,一般,*,*,*,*,もも,モモ,モモ']
['も', '助詞,係助詞,*,*,*,*,も,モ,モ']
['もも', '名詞,一般,*,*,*,*,もも,モモ,モモ']
['の', '助詞,連体化,*,*,*,*,の,ノ,ノ']
['うち', '名詞,非自立,副詞可能,*,*,*,うち,ウチ,ウチ']
['EOS']
['']

というように、きちんと形態素解析できていることが確認できました。

dataの部分を自分の好きな文章に変えたり、txtファイルから読み込んだりすることで、様々な文章を形態素解析することができます。

今回は形態素解析ツールMeCabをインストールしてPython3で使う方法をご紹介しました。MeCabを使いこなすことができれば、自然言語処理に非常に役に立ちます。

機械学習などと組み合わせることでよりニュースの分類やチャットボットの作成など、面白いことができます。

ぜひ、今後の学習に役立ててください。

監修してくれたメンター

小倉翔悟 (おぐらしょうご)

AIプログラミングを使って開発を行う大学3年生。

プログラミング歴は約3年でPythonは割と得意。好きな物理理論は一般相対性理論で動物も好き。

 

大石ゆかり

内容分かりやすくて良かったです!

田島悠介

ゆかりちゃんも分からないことがあったら質問してね!

大石ゆかり

分かりました。ありがとうございます!

 

オンラインのプログラミングスクールTechAcademyではPythonを使って機械学習の基礎を学ぶPythonオンライン講座を開催しています。

初心者向けの書籍を使って人工知能(AI)や機械学習について学ぶことができます。

現役エンジニアがパーソナルメンターとして受講生に1人ずつつき、マンツーマンのメンタリングで学習をサポートし、最短4週間で習得することが可能です。

また、現役エンジニアから学べる無料のプログラミング体験会も実施しているので、ぜひ参加してみてください。