icon
icon

Python3でMeCabを使う方法を現役エンジニアが解説【初心者向け】

初心者向けにPython3でMeCabを使う方法について現役エンジニアが解説しています。MeCabは形態素解析のライブラリで、文章を最小単位の構成要素に分解することが出来ます。他に辞書やパッケージをインストールして、Python3で形態素解析を行ってみましょう。

テックアカデミーマガジンは受講者数No.1のプログラミングスクール「テックアカデミー」が運営。初心者向けにプロが解説した記事を公開中。現役エンジニアの方はこちらをご覧ください。 ※ アンケートモニター提供元:GMOリサーチ株式会社 調査期間:2021年8月12日~8月16日  調査対象:2020年8月以降にプログラミングスクールを受講した18~80歳の男女1,000名  調査手法:インターネット調査

Python3でMeCabを使う方法について解説します。

そもそもPythonについてよく分からないという方は、Pythonとは何なのか解説した記事を読むとさらに理解が深まります。

 

なお本記事は、TechAcademyのオンラインブートキャンプPython講座の内容をもとに紹介しています。

 

田島悠介

今回は、Pythonに関する内容だね!

大石ゆかり

どういう内容でしょうか?

田島悠介

Python3でMeCabを使う方法について詳しく説明していくね!

大石ゆかり

お願いします!

 

MeCabとは

MeCabとは、日本で開発された「形態素解析エンジン」です。形態素解析というのは、自然言語処理の手法の一つで、文章をその最小単位の構成要素に分解していく手法のことです。

例えば、

「すもももももももものうち」

という文章を形態素解析すると、

「すもも / も / もも / も / もも / の / うち」

という形で文章の構成要素に分解することができます。

このような処理は自然言語処理とよばれる分野で非常に重要になってきます。自然言語処理の例であるGoogleアシスタントやSiriなどの音声認識では、認識した文章を形態素解析して人工知能と組み合わせることで様々な処理をおこなっています。

今回はこのMeCabの使い方について紹介します。

HomebrewでMeCabと辞書をインストールする

まずは、ターミナルで次のコマンドを実行することでMeCabと辞書ファイル(mecab-ipa)をインストールします。

$ brew install mecab
$ brew install mecab-ipadic

インストールが終了したら、

$ mecab

としてMeCabが起動するのを確認できたら、インストール完了です。

試しに文章を打ち込んでみると形態素解析をしたものが表示されることが確認できるのでやってみてください。

[PR] Pythonで挫折しない学習方法を動画で公開中

mecab-ipadic-NEologdをインストールする

mecab-ipaという辞書だけではうまく形態素解析できないことがよくあります。

それは、地名や人名などの固有名詞が辞書に登録されていないからです。そこで、mecab-ipadic-NEologdという辞書もインストールします。

公式サイト(github)にインストール方法が載っています。

以下のコマンドを順に実行すれば、mecab-ipadic-NElogdをインストールすることができます。

$ cd ~/Downloads
$ git clone --depth 1 https://github.com/neologd/mecab-ipadic-neologd.git
$ cd mecab-ipadic-neologd
$ ./bin/install-mecab-ipadic-neologd -h

これを実行して、

[install-mecab-ipadic-NEologd] : Install completed.

と表示されればインストール完了です。

pipでmecab-python3をインストールする

続いては、pythonからmecabを使うために、mecab-python3というパッケージをインストールします。次のコマンドを実行すると、インストールができます。

$ pip install mecab-python3

エラーが出る場合は

$ brew install swig

を実行してからインストールしてみてください。

Successfully installed mecab-python3-0.996.2

 

コラム

コスパとタイパ、両方結果的に良くなる良くなる学び方とは?

「スクールは高いし時間も縛られて効率が悪い」と考える方は多いと思います。
もちろん、時間も費用もかかることは間違いありません。
ただ 結果的に無駄な学びにお金も時間もかける方がリスクが高いという考えもあります。

コスパ・タイパ最適化の参考として、 テックアカデミー卒業生がスクールを選んだ理由 をご紹介します。

  • ・困ったときに、質問や相談できる相手がいるため挫折しなかった
  • ・プロとして必要なスキルのみを深く学べたので無駄がなかった
  • ・副業案件の提供と納品までのサポートがあったので目的を達成できた

安価・短期間で広く浅く学んでも意味がありません。 本当に自分の目的が達成できるか、それが重要です。
自分にどのスキルや学び方が合っているか、どんな学習方法かなど、お気軽に 無料相談 に参加してみませんか?

カウンセラー・現役のプロへ、何でも気軽に無料相談可能。 30分か60分お好きな時間が選べて、かつ3回まで すべて無料で ご利用できます。
無理な勧誘は一切ない ので、お気軽にご参加ください。

今なら相談した方限定の割引・参加特典付き! 無料相談はこちら

実際に形態素解析してみよう

ここまできてようやく実際の形態素解析ができます。

サンプルコード

import re
import MeCab
#形態素解析したい文章
data = "すもももももももものうち"
mecab  = MeCab.Tagger().parse(data)
lines = mecab .split('\n')
#各行ごとに文章の構成単位に分解
items = (re.split('[t]',line) for line in lines)
#形態素解析した結果を表示
for item in items:
    print(item)

実行結果

['すもも\t名詞,普通名詞,一般,,,,スモモ,李,すもも,スモモ,すもも,スモモ,和,"","","","","","",体,スモモ,スモモ,スモモ,スモモ,"0","C2","",15660352771596800,56972']
['も\t助詞,係助詞,,,,,モ,も,も,モ,も,モ,和,"","","","","","",係助,モ,モ,モ,モ,"","動詞%F2@-1,形容詞%F4@-2,名詞%F1","",10324972564259328,37562']
['もも\t名詞,普通名詞,一般,,,,モモ,桃,もも,モモ,もも,モモ,和,"","","","","","",体,モモ,モモ,モモ,モモ,"0","C3","",10425303000293888,37927']
['も\t助詞,係助詞,,,,,モ,も,も,モ,も,モ,和,"","","","","","",係助,モ,モ,モ,モ,"","動詞%F2@-1,形容詞%F4@-2,名詞%F1","",10324972564259328,37562']
['もも\t名詞,普通名詞,一般,,,,モモ,桃,もも,モモ,もも,モモ,和,"","","","","","",体,モモ,モモ,モモ,モモ,"0","C3","",10425303000293888,37927']
['の\t助詞,格助詞,,,,,ノ,の,の,ノ,の,ノ,和,"","","","","","",格助,ノ,ノ,ノ,ノ,"","名詞%F1","",7968444268028416,28989']
['うち\t名詞,普通名詞,副詞可能,,,,ウチ,内,うち,ウチ,うち,ウチ,和,"","","","","","",体,ウチ,ウチ,ウチ,ウチ,"0","C3","",881267193291264,3206']
['EOS']['すもも', '名詞,普通名詞,一般,,,,スモモ,李,すもも,スモモ,すもも,スモモ,和,"","","","","","",体,スモモ,スモモ,スモモ,スモモ,"0","C2","",15660352771596800,56972']
['も', '助詞,係助詞,,,,,モ,も,も,モ,も,モ,和,"","","","","","",係助,モ,モ,モ,モ,"","動詞%F2@-1,形容詞%F4@-2,名詞%F1","",10324972564259328,37562']
['もも', '名詞,普通名詞,一般,,,,モモ,桃,もも,モモ,もも,モモ,和,"","","","","","",体,モモ,モモ,モモ,モモ,"0","C3","",10425303000293888,37927']
['も', '助詞,係助詞,,,,,モ,も,も,モ,も,モ,和,"","","","","","",係助,モ,モ,モ,モ,"","動詞%F2@-1,形容詞%F4@-2,名詞%F1","",10324972564259328,37562']
['もも', '名詞,普通名詞,一般,,,,モモ,桃,もも,モモ,もも,モモ,和,"","","","","","",体,モモ,モモ,モモ,モモ,"0","C3","",10425303000293888,37927']
['の', '助詞,格助詞,,,,,ノ,の,の,ノ,の,ノ,和,"","","","","","",格助,ノ,ノ,ノ,ノ,"","名詞%F1","",7968444268028416,28989']
['うち', '名詞,普通名詞,副詞可能,,,,ウチ,内,うち,ウチ,うち,ウチ,和,"","","","","","",体,ウチ,ウチ,ウチ,ウチ,"0","C3","",881267193291264,3206']
['EOS']
['']

きちんと形態素解析できていることが確認できました。

dataの部分を自分の好きな文章に変えたり、txtファイルから読み込んだりすることで、様々な文章を形態素解析することができます。

今回は形態素解析ツールMeCabをインストールしてPython3で使う方法をご紹介しました。

MeCabを使いこなすことができれば、自然言語処理に非常に役に立ちます。

機械学習などと組み合わせることでよりニュースの分類やチャットボットの作成など、面白いことができます。

ぜひ、今後の学習に役立ててください。

監修してくれたメンター

メンターOS

AIプログラミングを使って開発を行う。

プログラミング歴は約3年でPythonは割と得意。好きな物理理論は一般相対性理論で動物も好き。

 

大石ゆかり

内容分かりやすくて良かったです!

田島悠介

ゆかりちゃんも分からないことがあったら質問してね!

大石ゆかり

分かりました。ありがとうございます!

 

TechAcademyでは、初心者でもPythonを使った人工知能(AI)や機械学習の基礎を習得できるオンラインブートキャンプPython講座を開催しています。

挫折しない学習方法を知れる説明動画や、現役エンジニアとのビデオ通話とチャットサポート、学習用カリキュラムを体験できる無料体験も実施しているので、ぜひ参加してみてください。

初心者・未経験でもできる。まずはテックアカデミーに相談しよう

プログラミングを独学で学習していて、このように感じた経験はないでしょうか?

  • ・調べてもほしい情報が見つからない
  • ・独学のスキルが実際の業務で通用するのか不安
  • ・目標への学習プランがわからず、迷子になりそう

テックアカデミーでは、このような 学習に不安を抱えている方へ、マンツーマンで相談できる機会を無料で提供 しています。
30分間、オンラインでどんなことでも質問し放題です。

「受けてよかった」と感じていただけるよう カウンセラーやエンジニア・デザイナー があなたの相談に真摯に向き合います。

「自分に合っているか診断してほしい」
「漠然としているが話を聞いてみたい」

こんなささいな悩みでも大丈夫です。

無理な勧誘は一切ありません ので、まずはお気軽にご参加ください。
※体験用のカリキュラムも無料で配布いたします。(1週間限定)

今なら参加者限定の割引特典付き! 無料相談を予約する