機械学習

【事例付き】自然言語処理とは！仕組みやライブラリを解説

初心者向けにAI（人工知能）を構築する上でよく使われる自然言語処理とは何か詳しく解説しています。自然言語処理の仕組みや原理、ライブラリを説明しています。普段使われているサービスの事例も紹介しているので、ぜひ参考にしてみてください。

テックアカデミーマガジンは受講者数No.1のプログラミングスクール「テックアカデミー」が運営。初心者向けにプロが解説した記事を公開中。現役エンジニアの方はこちらをご覧ください。 ※ アンケートモニター提供元：GMOリサーチ株式会社　調査期間：2021年8月12日～8月16日　調査対象：2020年8月以降にプログラミングスクールを受講した18～80歳の男女1,000名　調査手法：インターネット調査

2016年末頃、Google翻訳の翻訳精度が飛躍的に向上し、大きな話題となりました。それまでは、英語を日本語に翻訳すると不自然な文章になってしまうことも多かったのですが、現在では、より自然な日本語の翻訳結果を得られるようになっています。それには人工知能（AI）の研究成果が深くかかわっています。

SNSや自然言語の情報をデータ分析する上で、自然言語処理の理解は欠かせません。

自然言語処理とはどのような技術か、実際にどのようなサービスに使われているのか、ぜひ知っておきましょう。

なお本記事は、TechAcademyのAIオンライン講座の内容をもとに作成しています。

自然言語処理とは

自然言語処理とは、私たちが日常的に使っている言葉（以降「自然言語」と表記します）をコンピューターに処理させる一連の技術のことです。人工知能（AI）と言語学の一分野です。

自然言語は、人間がお互いにコミュニケーションを行うために自然発生しました。そのため、プログラミング言語と違い、曖昧さを含みます。また文化的な背景、時代や地域によって様々に変化するため、ルール化が難しい、コンピューターにとって扱いづらいという特性があります。

自然言語処理は、とても古くから研究されており、その研究分野は多岐に渡ります。また現在でも毎年のように各分野で新しい技術が生まれています。

大規模データ時代に求められる自然言語処理

[PR]機械学習で挫折しない学習方法を動画で公開中

自然言語処理の仕組み、原理とは

自然言語処理は、「形態素解析→構文解析→意味解析→文脈解析」の順で行われます。

また、自然言語処理の前段として、処理対象となる文章群（コーパスといいます）と、単語を識別するための辞書が必要となります。現在では、インターネットを経由して、日々大量の言葉がやりとりされ、多くの新しい単語が生まれています。

処理対象となる文章を収集することが、とても容易になったとも言えます。また、それらの文章から自動的に辞書を作る試みも行われています。

形態素解析

自然言語を、辞書や文法ルールをもとに、「意味を持つこれ以上分割できない最小の単位（以降、総称として「単語」と表記します）」に分割する作業です。

例えば「高い富士山と海が美しい。私はそれを彼女に伝えた」という文章があったとします。前半部分「高い富士山と海が美しい」を形態素解析すると、以下のようになります。

自然言語処理では多くの場合、単語を1つの単位として表し、以降の「構文解析→意味解析→文脈解析」の処理により意味を導き出して行きます。そのため、形態素解析は、自然言語処理で必要不可欠な最初の手順となります。

英語を含む多くの言語では、基本的に単語と単語の間はスペースで区切られているため（わかち書き）、単語への分割は非常に容易です。しかし日本語や中国語、タイ語などでは、通常単語と単語の間にスペースを挿入しないため、文を単語に分割する処理はより複雑となります。

構文解析

形態素解析で得られた単語の関係性を解析する作業です。

係り受け解析とも呼ばれます。構文解析の結果は「構文木」というもので表すことが出来ます。例えば「高い富士山と海が美しい」を構文解析した構文木は以下のようになります。

しかし、もう一つの例として、以下のように「高い」が「富士山と海」に係る例も考えられます。

日本語に慣れていると、前者が正解だということがすぐ分かりますが、それは構文解析とともに意味解析も行っているためです。構文解析段階では、どちらも正解となります。

意味解析

構文解析で文章の係り受けの構造が把握できました。しかしこの状態では、

高いのは富士山だけか、海も高いのか
美しいのは「高い富士山と海」なのか、海だけ美しいのか

といった点がはっきりしておらず、正しいものを選択しなければなりません。これは、「意味」を利用して正しい構文木を選択することを意味します。それが意味解析です。

意味解析では、辞書をもとに、単語と単語の関連性を調べながら、正しい構文木を選択します。

「富士山」と「高い」は関連性が高い
「海」と「高い」は関連性が低い
よって、高いのは富士山だけ

しかし、意味解析は、コンピューターにとっては非常に難しい作業です。コンピューターは「意味」という概念は分かりません。ルール化して伝える（プログラムする）必要がありますが、前記した「単語と単語の関連性」だけが「意味」のルールではないためです。

例えば「高い富士山」と表現すれば、「山としての富士山」を想像しますが、場合によっては「富士山」という商品があり、その価格が高いということを意味しているのかもしれません。

また、前出の文章「高い富士山と海が美しい。私はそれを彼女に伝えた」において、「それを彼女に伝えた」の「それ」とは何を指すのでしょうか？　その答えを得るには、文脈を通して判断する必要があります。

文脈解析

文脈解析は、複数の文を通して、形態素解析と意味解析を行います。文脈解析は、単に解析の対象が長くなっただけではなく、文の関係性も解析しなければならない、とても複雑な作業です。

例えば「高い富士山と海が美しい。私はそれを彼女に伝えた」において「それ」は直前の文章を指します。しかし文章の並びをかえるだけで、とたんに「それ」が指すものは分からなくなってしまいます。

「私はそれを彼女に伝えた。高い富士山と海が美しい」

ここまでの、形態素解析→構文解析→意味解析→文脈解析の過程を経て、やっとコンピューターが自然言語処理を完了した状態となります。それでは、冒頭にお伝えした、Google翻訳の翻訳精度の向上と人工知能（AI）とは、どのような関係があるのでしょうか。

人工知能（AI）との関係

形態素解析と構文解析は、コンピューターにとって比較的行いやすい作業です。しかし意味解析や文脈解析は、より高次元な判断が必要となります。これまで、コンピューターによる翻訳結果が不自然な文章になりがちだったのは、正しい意味解析や文脈解析を行うのが、非常に難しかったからです。

意味解析や文脈解析を行うには、大量のデータでコンピューターに学習させることが必要です。

大量のデータでコンピューターに学習させることを「機械学習」と言います。「機械学習」は人工知能（AI）で総称される技術の１つです。

従来は、紙の辞書を編纂するように、人間がひとつづつ、単語意味や関連性を記述してコンピューターに学習させていました。もととなる文章も、新聞や書籍などから転記していたため、非常に手間と時間がかかりました。

しかし2000年代に入り、高速・高性能なコンピューターが容易に入手できるようになりました。また、インターネットの発展により、従来より格段に多くのデータを収集できるようになりました。

大量の学習データを高速にコンピューターに学習させることができる環境が整ったことで、これまでの何倍ものスピードで、意味解析や文脈解析の学習が行えるようになりました。それにより、コンピューターが人間により近い「意味」の概念を習得できるようになり、自然言語処理の精度が飛躍的に向上することになりました。

自然言語処理の事例

それでは、自然言語処理が使われている例をいくつか見てみましょう。

日本語入力（かな漢字文字変換）

キーボードで入力した「かな文字」を「漢字混じり文字」に変換する際、自然言語処理が使われています。ワープロの時代から研究されている分野で、最近は長い文章も精度良く変換できるようになっています。

機械翻訳

冒頭にお伝えした、Google翻訳をはじめ、ここ数年で急速に精度が上がってきている分野です。また合成音声と組み合わせたサービスも一般的になってきています。

Google翻訳
音声翻訳アプリ NICT（独立行政法人情報通信研究機構）が開発した多言語翻訳エンジンが使われています。

対話システム

音声または文字で入力した文章を、コンピューターが理解して応答を返すシステムです。スマートスピーカーやSiriなどのアシストサービス、LINEのボット（自動応答システム）などがあります。また、対話システムを容易に構築できるAPIも提供されています。

Amazon Echo
LINE Clova WAVE
Google Home
Siri
Cortana
りんな Microsoftが作成したLINEの自動応答システム
Watson Conversation 対話システムAPI

コラム

コスパとタイパ、両方結果的に良くなる良くなる学び方とは？

「スクールは高いし時間も縛られて効率が悪い」と考える方は多いと思います。
もちろん、時間も費用もかかることは間違いありません。
ただ結果的に無駄な学びにお金も時間もかける方がリスクが高いという考えもあります。

コスパ・タイパ最適化の参考として、テックアカデミー卒業生がスクールを選んだ理由をご紹介します。

・困ったときに、質問や相談できる相手がいるため挫折しなかった
・プロとして必要なスキルのみを深く学べたので無駄がなかった
・副業案件の提供と納品までのサポートがあったので目的を達成できた

安価・短期間で広く浅く学んでも意味がありません。本当に自分の目的が達成できるか、それが重要です。
自分にどのスキルや学び方が合っているか、どんな学習方法かなど、お気軽に無料相談に参加してみませんか？

カウンセラー・現役のプロへ、何でも気軽に無料相談可能。 30分か60分お好きな時間が選べて、かつ3回まですべて無料でご利用できます。
無理な勧誘は一切ないので、お気軽にご参加ください。

今なら相談した方限定の割引・参加特典付き！無料相談はこちら

自然言語処理ができるライブラリまとめ

最後に、自然言語処理ができるライブラリについて見ていきましょう。

MeCab

日本語の自然言語処理器（形態素解析器）システムとして最も有名です。

MeCab

JUMAN

こちらも形態素解析器です。WikipediaやWebサイトから収集した辞書により、MeCabと比較して、最近の言葉でも正確に処理を行うことが可能です。

JUMAN

Cabocha

構文解析器です。MeCabと組み合わせて使用します。機械学習(SVM)を利用しています。

Cabocha

KNP

構文解析器です。Webから自動構築した大規模格フレームにより、より精度の高い解析が行えます。

KNP

自然言語処理について、理解は深まったかな？

身近に感じていましたが、とても奥が深い技術なんですね。勉強になりましたー！

気軽に利用できるAPIもあるから、使ってみるといいよ。深層学習や機械学習、画像認識技術については、また別のところで説明するね。

分かりました。ありがとうございました！

今回は、自然言語処理について解説しました。

これから自然言語処理を勉強したい、機械学習を使って何か作ってみたいという方は最初に理解しておきたい内容でしょう。

また、オンラインのプログラミングスクールTechAcademyでは、AIオンライン講座を開催しています。

AI（人工知能）の構築に必要な機械学習・ディープラーニングについて実践的に学習することができます。

現役エンジニアがパーソナルメンターとして受講生に1人ずつつき、マンツーマンのメンタリングで学習をサポートし、習得することが可能です。

この記事を監修してくれた方

太田和樹（おおたかずき）
ITベンチャー企業のPM兼エンジニア

普段は主に、Web系アプリケーション開発のプロジェクトマネージャーとプログラミング講師を行っている。守備範囲はフロントエンド、モバイル、サーバサイド、データサイエンティストと幅広い。その幅広い知見を生かして、複数の領域を組み合わせた新しい提案をするのが得意。

開発実績：画像認識技術を活用した駐車場混雑状況把握（実証実験）、音声認識を活用したヘルプデスク支援システム、Pepperを遠隔操作するアプリの開発、大規模基幹系システムの開発・導入マネジメント

地方在住。仕事のほとんどをリモートオフィスで行う。通勤で消耗する代わりに趣味のDIYや家庭菜園、家族との時間を楽しんでいる。

プログラミングを独学で学習していて、このように感じた経験はないでしょうか？

・調べてもほしい情報が見つからない
・独学のスキルが実際の業務で通用するのか不安
・目標への学習プランがわからず、迷子になりそう

テックアカデミーでは、このような学習に不安を抱えている方へ、マンツーマンで相談できる機会を無料で提供しています。
30分間、オンラインでどんなことでも質問し放題です。

「受けてよかった」と感じていただけるようカウンセラーやエンジニア・デザイナーがあなたの相談に真摯に向き合います。

「自分に合っているか診断してほしい」
「漠然としているが話を聞いてみたい」
こんなささいな悩みでも大丈夫です。

無理な勧誘は一切ありませんので、まずはお気軽にご参加ください。
※体験用のカリキュラムも無料で配布いたします。（1週間限定）

今なら参加者限定の割引特典付き！無料相談を予約する

【事例付き】様々なサービスに活用！画像認識技術とは

デジタルカメラのスマイルシャッターや、iPhoneXのFaceIDなど、画像認識の技術は私達の身の回りで多く使われており、生活を便利に豊かにしてくれています。 ...

機械学習

徹底解説！scikit-learnを使った教師あり・なし学習とは

今回は、教師あり学習と教師なし学習について解説します。ぜひ、この記事を参考に、教師あり・なし学習にチャレンジしてみてください。 ...

機械学習

時系列の種類やモデルの紹介！時系列分析とは【初心者向け】

今回は、時系列分析について解説します。時系列の種類や時系列データのモデルについて紹介しているので、どういった分析の仕方があるのかぜひ知っておきましょう。...

機械学習

機械学習のライブラリ！scikit-learnとは【初心者向け】現役エンジニアが解説

今回は、Pythonの代表的な機械学習のライブラリであるscikit-learnについて解説します。機械学習というと、複雑な数式を使ったり、なんだか難し...

機械学習

【明快に解説】いまさら人に聞けない！人工知能（AI）とは

近年、TVなどのメディアで「AI」という言葉をよく耳にします。しかし、実際AIがどんなもので私たちの生活にどのような利益をもたらしているのか、またAI産...

機械学習

使い方を解説！Googleが開発したTensorflow（テンサーフロー）とは【初心者向け】

今回は、Googleが開発し、オープンソースで公開している深層学習（ディープラーニング）のライブラリであるTensorflowについて、TechAcademyの...

機械学習

あわせてよく読まれている記事

PythonでMeCabを利用する方法を現役エンジニアが解説【初心者向け】

PythonでMeCabを利用する方法について解説します。そもそもPythonについてよく分からないという方は、Pythonとは何なのか解説した記事を読むとさらに理解が深まります。なお本記事は、TechAcademyのオンラインブートキャンプPython講座の内容をもとに紹介しています。田島悠介今回は、Pythonに関する内容だね！大石ゆかりどういう内容でしょうか？田島悠介 PythonでMeCabを利用する方法について詳しく説明していくね！大石ゆかりお願いします！形態素解析とは形態素解析とは、自然言語を単語に分割する作業です。例えば、「あの花は美しい」という文章は以下のように分割されます。あの：名詞（代名詞）花：名詞は：助詞美しい：形容詞英語であればスペース区切りで簡単に分割できます。しかし日本語の場合、辞書や文法ルールを使って分割する必要があります。言葉は日々新しいものが生まれているため、最新の言葉を知らないと誤った分割をしてしまう可能性があります。なお、形態素解析は自然言語処理の一部です。自然言語処理は、「形態素解析→構文解析→意味解析→文脈解析」の順番で行われます。自然言語処理について、詳しくは以下の記事を参考にしてください。【事例付き】自然言語処理とは！仕組みやライブラリを解説形態素解析エンジンMeCabとは日本語の形態素解析エンジン（ソフトウェア）として最も有名なのがMeCabです。 MeCabは、オープンソースの形態素解析エンジンで、誰でも自由に無償で利用できます。公式サイトからダウンロードできます。公式サイト MeCabを導入するには辞書が必要です。Windows版にはIPA辞書が添付されています。その他にもいくつかの辞書があります。おすすめは、「mecab-ipadic-NEologd」という辞書です。 Web上の情報をもとに週2回以上更新されており、新語や固有表現に強い特徴があります。「mecab-ipadic-NEologd」の導入にはGitやLinuxの知識が必要となりますが、IPA辞書よりは格段に形態素解析の性能が上がります。 IPA辞書での動作確認が完了したら、ぜひ導入にチャレンジしてみましょう。 mecab-ipadic-NEologd [PR]機械学習で挫折しない学習方法を動画で公開中MeCabの導入方法 PythonでMeCabを利用できるようにするには、以下の手順を行います。以下はWindows版の導入例です。 Pythonのインストール事前にPythonをインストールしておきましょう。 Pythonのインストールには、関連するソフトウェアをまとめて導入できるAnacondaを利用すると便利です。 Anacondaのインストール方法については以下の記事を参考にしてくださいより効率よく開発できる！AnacondaでPythonの環境を構築する方法 Anacondaでは用途に応じた複数のPythonの環境を構築できます。ぜひMeCab用の環境を用意しましょう。 Anaconda Navigatorを起動し、EnvironmentsからCreateボタンをクリックします。 Nameには任意の名前(以下では「MeCab」という名前で作成)、Pythonは「3.7」を選択してCreateボタンをクリックします。少し待つと新しい環境が作成されます。 MeCabのインストール公式サイトからバイナリパッケージをダウンロードして実行します。辞書の文字コードは「UTF-8」を選択します。あとは手順通り進めると、MeCabがインストールされます。インストールが終わったら環境変数「PATH」に「MeCabをインストールしたフォルダbin」を追加します。MeCabをインストールしたフォルダはデフォルトでは「C:Program Files (x86)MeCabbin」となります。なお、環境変数の設定方法は以下の通りです。 ※環境変数の設定方法コルタナに「システムの詳細」と入力し、システムの詳細設定を起動環境変数ボタンをクリック表示された画面からシステム環境変数の「Path」を選択し編集ボタンをクリック新規ボタンをクリックし「C:Program Files (x86)MeCabbin」と入力 OKボタンクリックして順番に画面を閉じる MeCabの動作確認インストール終了後、MeCabの動作確認を行いましょう。コマンドプロンプトを起動し、「mecab」と入力するとMeCabが起動します。例として「あの花は美しい」と入力してみましょう。以下のように形態素解析が行われると動作確認は完了です。MeCabを終了するには「Ctrl+C」を押します。あの花は美しいあの連体詞,*,*,*,*,*,あの,アノ,アノ花名詞,一般,*,*,*,*,花,ハナ,ハナは助詞,係助詞,*,*,*,*,は,ハ,ワ美しい形容詞,自立,*,*,形容詞・イ段,基本形,美しい,ウツクシイ,ウツクシイ EOS PythonからMeCabを使う設定を行う PythonからMeCabを使う設定はAnaconda Promptから行います。コルタナに「Anaconda Prompt」と入力してAnaconda Promptを起動します。 (base) C:Usersユーザー名> Anaconda Promptを起動した直後はbase環境の状態になっています。以下のように「activate MeCab」と入力してMeCab環境に変更しましょう。表示が「(base)」から「(MeCab)」になったことを確認します。 (base) C:Usersohtak>activate MeCab (MeCab) C:Usersohtak> 続けて以下のコマンドを入力します。処理が終わるまで待ちます。 pip install ipykernel 次に以下のコマンドを入力します。同じく処理が終わるまで待ちます。 pip install mecab-python-windows 最後に「MeCabをインストールしたフォルダbin」にある「libmecab.dll」というファイルを「AnacondaをインストールしたフォルダLibsite-packages」にコピーします。 Anacondaをインストールしたフォルダはデフォルトでは「C:Usersユーザー名Anaconda3Libsite-packages」となります。利用例一連の作業が正しく完了すると、PythonからMeCabを利用できる状態となります。今回はPythonの実行環境であるjupyterNotebookからMeCabを使用してみましょう。 jupyterNotebookはAnaconda Navigatorから起動できます。 jupyterNotebookを起動したら、新しいPython3ノートブックを作成し、以下のコードを入力して実行します。特にエラーメッセージが表示されなければPythonからMeCabを利用できる状態になっています。 import MeCab 続いて形態素解析を行ってみましょう me = MeCab.Tagger ("-Ochasen") print(me.parse ("あの花は美しい")) 実行結果は以下のようになります。あのアノあの連体詞花ハナ花名詞-一般はハは助詞-係助詞美しいウツクシイ美しい形容詞-自立形容詞・イ段基本形 EOS 形態素解析でエラーが出る場合は、MeCabをインストールする際、辞書を誤って「SHIFT-JIS」で作成してしまった可能性があります。辞書の文字コードは以下のコードで確認できます。 mecab = MeCab.Tagger("-Ochasen") info = mecab.dictionary_info() print(info.charset) 「SHIFT-JIS」と表示された場合は、一旦MeCabをアンインストールし、フォルダも削除した上で、再度辞書を「UTF-8」に指定してインストールを行いましょう。コラムコスパとタイパ、両方結果的に良くなる良くなる学び方とは？

Python

事例から学ぶ！人工知能（AI）を種類別に解説【初心者向け】

現在、幅広い業種で人工知能（AI）が使われています。またニュースや新聞でも、人工知能の報道を目にしない日はありません。このような状況の中、人工知能に興味・関心を寄せるエンジニアが増えてきています。また企業においても、人工知能のスキルを持ったエンジニアの採用が活発に行われています。人工知能（AI）とは、「コンピューターが物事やルールを理解するための仕組み」の様々な技術の総称です。よって、人工知能の種類や歴史、できること、できないことを知ることで、エンジニアとして適切なスキルアップを図ることができるようになるでしょう。この記事では、人工知能の種類と特徴、人工知能の歴史、人工知能(AI)でできること、できないことをそれぞれ紹介していきます。人工知能とはどのような技術か、実際にどのようなサービスに使われているか、ぜひ知っておきましょう。なお本記事は、TechAcademyのオンラインブートキャンプ、AI講座とデータサイエンス講座の内容をもとに作成しています。目次人工知能とは人工知能の種類と特徴人工知能の歴史人工知能ができること、できないこと人工知能の学習書籍やサイトの紹介田島悠介今回は人工知能について解説するよ。大石ゆかり田島メンター！人工知能って最近よく耳にしますね。具体的にどのような技術なんですか〜？田島悠介いろんな技術の総称なんだ。詳しく見ていこう。大石ゆかり分かりました！人工知能とは人工知能(（AI）とは、「コンピューターが物事やルールを理解するための仕組み」の様々な技術の総称です。人工知能、Artificial Intelligenceという言葉は、1956年にダートマス会議でジョン・マッカーシーにより初めて使われました。ダートマス会議とは、人工知能という学術研究分野を確立した会議の通称であり、初めての人工知能プログラムもこの会議の中で紹介されています。現代において、人工知能という言葉の定義は非常にあいまいになっており、ちょっとしたセンサーを使った家電や、ゲームソフトの処理ルーチンなども人工知能と呼ばれることがあります。人工知能には、強いAIと弱いAIという考え方があります。強いAIは、人間の脳そのものを表現しようとする考え方です。対して弱いAIとは、人間が知能を使ってすることを機械にさせよう、という考え方です。現代の研究は、ほとんど弱いAIの立場に立って行われています。すなわち、人間が知能を使ってすることを機械にさせよう、という立場です。弱いと言っても、人工知能の性能が低い、という意味ではありません。囲碁や将棋などのゲーム、画像認識などの分野においては、既に人間を凌駕する性能を実現できています。 [PR]機械学習で挫折しない学習方法を動画で公開中人工知能の種類と特徴それでは、人工知能の活用について、代表的な種類と特徴を見ていくことにしましょう。言語いわゆる自然言語処理を行う人工知能です。文章を読んで構文を理解したり、内容が似た文章を選択したりすることができます。機械翻訳システムも言語処理を行う人工知能を生かして構築されています。言語処理は古くから研究されているテーマですが、特に最近の深層学習（ディープラーニング）技術の発展により、急激にその能力が向上しています。現在では「人工知能の歴史」のようなテーマを与えることで、新しい文章を人工知能が生成することも出来るようになってきています。自然言語処理については、こちらの記事も参考にしてください。 Google翻訳りんな(Microsoft のチャットボット) きまぐれ人工知能プロジェクト(ショートショート創作) 音声雑多な音の中から人の声だけを抽出したり、声を認識して文章に変換したりする人工知能です。言語の人工知能と組み合わせて使う場合が多く、翻訳アプリに直接話しかけると他言語に翻訳された音声が返ってくるリアルタイム翻訳など、様々なソリューションが開発されています。音声を認識できる精度が向上したことにより、スマートウォッチやスマートスピーカーなど、音声を主要なインタフェース（操作方法）とする製品も多く登場するようになってきました。 Clova(Line社のスマートスピーカー) Google翻訳 Shazam(音声から曲名を推測するアプリ) 画像画像や映像に写っている物体を認識する人工知能です。Googleの画像検索や、監視カメラにおける人物識別にはこの技術が利用されています。また、物体を認識するだけではなく、画像や映像の加工にも人工知能技術が使われています。スマートフォンのカメラの美肌処理や、showのような顔写真加工アプリは身近な存在ですね。さらに最近では、「The Next Rembrandt」のような、画家の作品の特徴を学習させ、新たな作品を創造する、といった取り組みも行われるようになってきています。 Google画像検索 NeoFace(NECの顔認証技術。監視カメラなどに活用) The Next Rembrandt(人工知能によるレンブラント作品の創造) 制御／推論なんらかのデーターをもとに、未知の状態を予測する人工知能です。身近なところでは、家電や自動車の制御、通販サイトでのおすすめ商品の表示などもこの人工知能を活用しています。これらの人工知能は機械学習と呼ばれ、前出の人工知能も含め、広い分野をサポートする、いわばバックエンド的な存在です。機械学習には、教師あり学習、教師なし学習、強化学習といった種類があります。強化学習とは、囲碁や将棋、コンピューターゲームなどを人工知能に攻略させる種類のものです（勝つことでより学習が強化されるため、強化学習と呼ばれています）。機械学習については、こちらの記事も参考にしてください。機械学習（マシンラーニング）とは！まずはここから理解しよう scikit learn(代表的な機械学習ライブラリ) TensorFlow(代表的なディープラーニングライブラリ) 人工知能の歴史次に、人工知能の歴史について、簡単に振り返ってみましょう。人工知能は、1956年にダートマス会議で初めてその名称が使われてから、ブームと衰退（冬の時代）を繰り返して現在に至っています。これは主に、人工知能に対する期待と失望、研究資金の供給と停止によるものです。ただ、幾度のブームと衰退を繰り返すことで、人工知能でできること、できないことが精査されてきました。現在の研究が、弱いAIの立場に立っているのもその一例です。また、コンピューターの飛躍的な性能向上により、以前は机上の空論でしかなかった理論が、容易にできるようになったことも、現在の人工知能ブームを支えている一因です。人工知能の誕生 1943-1956 ブーム第1期(黄金時代) 1956-1974 冬の時代第1期 1974-1980 ブーム第2期 1980-1987 冬の時代第2期 1987-1993 〜ブーム第3期 2006- wikipedia 人工知能の歴史コラムコスパとタイパ、両方結果的に良くなる良くなる学び方とは？「スクールは高いし時間も縛られて効率が悪い」と考える方は多いと思います。もちろん、時間も費用もかかることは間違いありません。ただ結果的に無駄な学びにお金も時間もかける方がリスクが高いという考えもあります。コスパ・タイパ最適化の参考として、テックアカデミー卒業生がスクールを選んだ理由

機械学習

Python3でMeCabを使う方法を現役エンジニアが解説【初心者向け】

Python3でMeCabを使う方法について解説します。そもそもPythonについてよく分からないという方は、Pythonとは何なのか解説した記事を読むとさらに理解が深まります。なお本記事は、TechAcademyのオンラインブートキャンプPython講座の内容をもとに紹介しています。田島悠介今回は、Pythonに関する内容だね！大石ゆかりどういう内容でしょうか？田島悠介 Python3でMeCabを使う方法について詳しく説明していくね！大石ゆかりお願いします！ MeCabとは MeCabとは、日本で開発された「形態素解析エンジン」です。形態素解析というのは、自然言語処理の手法の一つで、文章をその最小単位の構成要素に分解していく手法のことです。例えば、「すもももももももものうち」という文章を形態素解析すると、「すもも　/　も　/　もも　/　も　/　もも　/　の　/　うち」という形で文章の構成要素に分解することができます。このような処理は自然言語処理とよばれる分野で非常に重要になってきます。自然言語処理の例であるGoogleアシスタントやSiriなどの音声認識では、認識した文章を形態素解析して人工知能と組み合わせることで様々な処理をおこなっています。今回はこのMeCabの使い方について紹介します。 HomebrewでMeCabと辞書をインストールするまずは、ターミナルで次のコマンドを実行することでMeCabと辞書ファイル(mecab-ipa)をインストールします。 $ brew install mecab $ brew install mecab-ipadic インストールが終了したら、 $ mecab としてMeCabが起動するのを確認できたら、インストール完了です。試しに文章を打ち込んでみると形態素解析をしたものが表示されることが確認できるのでやってみてください。 [PR]機械学習で挫折しない学習方法を動画で公開中mecab-ipadic-NEologdをインストールする mecab-ipaという辞書だけではうまく形態素解析できないことがよくあります。それは、地名や人名などの固有名詞が辞書に登録されていないからです。そこで、mecab-ipadic-NEologdという辞書もインストールします。公式サイト(github)にインストール方法が載っています。以下のコマンドを順に実行すれば、mecab-ipadic-NElogdをインストールすることができます。 $ cd ~/Downloads $ git clone --depth 1 https://github.com/neologd/mecab-ipadic-neologd.git $ cd mecab-ipadic-neologd $ ./bin/install-mecab-ipadic-neologd -h これを実行して、 [install-mecab-ipadic-NEologd] : Install completed. と表示されればインストール完了です。 pipでmecab-python3をインストールする続いては、pythonからmecabを使うために、mecab-python3というパッケージをインストールします。次のコマンドを実行すると、インストールができます。 $ pip install mecab-python3 エラーが出る場合は $ brew install swig を実行してからインストールしてみてください。 Successfully installed mecab-python3-0.996.2 コラムコスパとタイパ、両方結果的に良くなる良くなる学び方とは？「スクールは高いし時間も縛られて効率が悪い」と考える方は多いと思います。もちろん、時間も費用もかかることは間違いありません。

Python

サイト運営に必須！無料で使えるアクセス解析ツール10選

Webサイトを運営していく中で欠かせないのがアクセス解析。どれだけ良いサイトを作っても人が来ないと意味がありません。どうやったらもっと人が来るか、どのページが一番見られているかなど分析することで改善に繋がります。今回はサイトのアクセス解析ができるツールをまとめて紹介しています。知らないツールがあればぜひ試してみてください。なお本記事は、TechAcademyのWebマーケティングオンラインブートキャンプのカリキュラムをもとに執筆しています。 Googleアナリティクス Webのアクセス解析ツールと言えばこれでしょう、逆にこれ以外を思い浮かべる方が難しいです。題名の通りGoogleがサービスも元です。広告の投資収益率の測定や、Flash、動画、ソーシャルネットワーク（facebook/twitterなど）のサイトやアプリケーションのトラッキング、売り上げやコンバージョン数に加え、ユーザーの行動や訪問経路の解析までなんでもカバーします。さらにインターフェイスも見やすいのでまさに無敵です。とりあえず悩んだらこれを選んで間違いはないでしょう。 Googleアナリティクス忍者アクセス解析こちらもかなり有名で使われている方も多いと思います。何より設置が簡単ですね。特に無料ブログである忍者ブログとの親和性も高いのでそのコンボはオススメです。無料版は広告が出てしまうのですが、有料版にすると広告を非表示にできます。ログは4ヶ月間保存できます。アクセス解析初心者から業務までまで幅広く使えるのが人気の理由でしょう。忍者アクセス解析 [PR]機械学習で挫折しない学習方法を動画で公開中Yahoo!アクセス解析これもまた超有名検索サイトYahooのアクセス解析です。Googleのほど有名ではありませんが、原則無料で使え、ユーザー属性分析、リアルタイム分析、組織分析、広告・コンバージョン分析など機能的には引けを取りません。直感的に使えるグラフィカルなインターフェースもみやすく初心者でも楽しいです。各種基本的数値のリアルタイム解析やリアルタイム足あとなど、リアルタイム分析に重点を置いている点、訪問組織分析やユーザー追跡など、個別の分析が可能な点は他とは一線を画すため重宝されている。最初に紹介したGoogleアナリティクスと併用して使っている方も多くいて、それがベストな選択肢なのかもしれません。 Yahoo!アクセス解析 Ptengine 登録アカウント数55,000アカウント以上になり最近注目が集まってきているアクセス解析ツールです。グッドデザイン賞も取得したことからセンスのよさが伺えます。なのでユーザーのサイト内での行動をサーモグラフィーで可視化するヒートマップ機能などのグラフィカルな特徴が印象的で使っていてとても楽しいツールといえるでしょう。リアルタイム解析もうれしいです。カスタムイベントトラッキング機能というのもあり、それは計測したいリンクを管理画面上で選択すると、そのリンクに対するクリックが計測される機能です。 WordPressと親和性も高く、専用プラグインがあり、すぐに導入できる点もありがたいですね。 Ptengine コラムコスパとタイパ、両方結果的に良くなる良くなる学び方とは？「スクールは高いし時間も縛られて効率が悪い」と考える方は多いと思います。もちろん、時間も費用もかかることは間違いありません。ただ結果的に無駄な学びにお金も時間もかける方がリスクが高いという考えもあります。コスパ・タイパ最適化の参考として、テックアカデミー卒業生がスクールを選んだ理由をご紹介します。

Webマーケティング

Pythonで再帰関数を作る方法【初心者向け】

Pythonで再帰関数を作る方法について解説します。そもそもPythonについてよく分からないという方は、Pythonとは何なのか解説した記事を読むとさらに理解が深まります。なお本記事は、TechAcademyのオンラインブートキャンプPython講座の内容をもとに紹介しています。田島悠介今回は、Pythonに関する内容だね！大石ゆかりどういう内容でしょうか？田島悠介再帰関数を作る方法について詳しく説明していくね！大石ゆかりお願いします！再帰関数とは再帰関数とはプログラミングの手法の1つで、プログラムの中に自分自身の呼び出しが含まれているものを言います。再帰関数は、繰り返し関数と同様に、同様な処理を複数回行う場合に利用されますが、より複雑な問題を簡単な問題に置き換えて処理できると言われています。再帰関数は以下のような場面で利用されています。データ処理複数のデータをソートしたり、繰り返し処理を行う場合、データ構造によっては再帰関数を使うと効率的な場合があります。再帰データ型複雑な問題の解決よく例題としてあげられるのが「ハノイの塔」の問題です。一定のルールに従い、毎回状態が変わる処理に対して、再帰関数を使うと簡単な問題に置き換えて処理することができます。ハノイの塔構文解析（自然言語処理）自然言語処理において、文章を単語に分解する処理を、再帰関数を用いて行う場合があります。自然言語処理については以下の記事も参考にしてください。自然言語処理とは！仕組みやライブラリを解説余談ですが、再帰的表現はプログラミングで古くから用いられており、コンピュータ関連の用語にもしばし登場します。例えば「Linux」は「Linux is not unix」の略語であり、自分自身がもととなる文章に含まれています。再帰的頭字語 Pythonで再帰関数を作る方法 Python ではユーザー定義関数を利用して再帰関数を作成することができます。 def myfunc(x): if 終了条件: return x // 何かの処理を行う myfunc(x) 注意点は以下の通りです。必ず終了条件を入れましょう。終了条件が無いと永久に再帰呼び出しを行い、処理が終わらなくなってしまいます。再帰呼び出しを行う際の引数に注意しましょう。こちらも状態が変わらないままだと、終了条件の判定が正しく行えませんプログラムの内容が複雑だと感じたら、再帰関数以外で実現出来ないか考えてみましょう。再帰関数はシンプルに記述できる反面、処理を追いづらくバグを発見しづらいという面もあります。 [PR]機械学習で挫折しない学習方法を動画で公開中実際に書いてみよう今回のサンプルプログラムでは、1からnの整数の和を返すプログラムを、再帰関数を使った場合と使わない場合で確認します。はじめに再帰関数を使わない場合です。 def sum(n): ret = 0 for i in range(1, n + 1): ret += i return ret s = sum(100) print("1から100の合計は", s, "です") 実行結果は以下のようになります。 1から100の合計は

Python

日本政府の衛星データプラットフォーム「Tellus（テルース）」とは【インタビュー】

経済産業省からの委託事業として衛星データプラットフォーム「Tellus（テルース）」を開発・運用するさくらインターネット株式会社の竹林正豊さん（写真左）と田中康平さん（写真右）にインタビューしました。 Tellusとは何か、衛星データとは何か、衛星データの市場規模とTellusの特徴、そして学習方法と今後の展望まで伺いました。お話を伺った人竹林正豊氏さくらインターネット株式会社　新規事業部所属。 Tellus xData ALLIANCE Project/PublicRelation Group Producer 2006年大阪芸術大学芸術学部建築学科修了。慶應義塾大学大学院システムデザイン・マネジメント研究科在学中。ファッション雑誌編集者、広告クリエイティブエイジェンシーを経て2017年さくらインターネット入社。2018年6月より現職。同社では、クリエイティブディレクション、企画の知見を活かし、広報や広告宣伝、外部イベント、トレーニング、データコンテスト、オウンドメディアなどのプロジェクトを統括。田中康平氏さくらインターネット株式会社　新規事業部所属。 Tellus xData ALLIANCE Project/Business Development Group 超小型衛星の開発や衛星搭載電源の研究/開発に従事した後、2019年2月より現職。同社では衛星開発の知見を活かした衛星データの利活用事例検討やビジネス開発を担当。また、宇宙ビジネスメディア「宙畑-sorabatake-」にて企画・編集を担当。 Tellusとは ――最初に、Tellusがどういうものかについてお話いただければと思います。 Tellusとは政府衛星データを利用した新たなビジネスマーケットプレイスを創出することを目的とした、日本発のオープン＆フリーな衛星データプラットフォームです。さくらインターネットが経済産業省から3年間の受託開発と運用を一任されているプロジェクトで、「宇宙産業ビジョン2030」という国の方針に紐づく形で衛星データのオープンデータ化を行っています。 ――衛星データとはどのようなもので、どのようなことができるのでしょうか？前提として、衛星データというと何か難しいもののように思われるのですが、特殊なデータとして見るのではなく、ビッグデータの1つと考えるとよいでしょう。定期的に上空から地上の様子を撮影しているのが、衛星データです。言い換えれば、上空から撮影している画像、と捉えると良いでしょう。なので、プログラミングで画像処理できる人であれば、誰でも解析が可能です。例えば、国立競技場を定期的に撮影すれば、建設の進捗状況を見ることができますし、空港を見れば、航空機が駐機場に何機いるか数えることもできます。他の画像と少し異なる点があるとすれば、単なる画像ではあるものの、波長帯（バンド）ごとの画像がある、というところでしょうか。詳細は省きますが、波長帯ごとの画像を見ることで、対象物の状態を捉えることができるようになります。例えば、ある田んぼを定期的に撮影すれば、稲の育成状況を知ることができますし、地表面で温度が高いところを知ることもできます。 Tellusの場合、これらのデータは統合開発環境でPythonやR言語を駆使して解析できます。そのため、ただ見るだけではなく、解析により田んぼの育成状況を知ったり、収穫時期を予測したりもできます。 credit：JAXA キャプション：衛星で撮影した田んぼ(左)とその活性度を示す指標を解析で求めた結果(右) ――他のデータと比べて、エンジニアから見ると面白い点はありますか。ある意味タイムマシンのようなもので、通常のデータでは測定しにくい変化を捉えられるのが面白いところだと思います。 IoTデバイスでずっと同じ点を観測し続ければ、高頻度に高精度なデータを取得できますが、「設置したとき」からの「設置した場所」のデータしか取得できません。衛星データは面的に世界中を定期的に観測しているので、観測分解能は粗かったとしても蓄積された世界中のデータを確認できます。点として観測している場合には、類推することが難しい問題も、面として観測していれば解決できることもあります。そのため、本質的な変化をより観察しやすいと思います。よく事例として取り上げられているのが森林破壊の問題についてです。インドや中国は経済成長の影響から森林が凄く減っているイメージがありますが、実は森林の面積は増えているそうです。点として、例えば木材の輸出量や林野火災で失われた面積についてのみ見ていたら分からなかったであろうことも、面として見ることで定量的に評価できるようになるのです。衛星データを駆使して面で捉えたからこそ、森林が増えている事実に気付くことができた事例です。他には、何かしらを解析するアプリケーションを作成した場合、日本のみならず、世界中をターゲットにできる点も面白いかと思います。つまりは、日本の田んぼの育成状況を把握するアプリケーションを開発した場合、衛星データ自体は国内外問わず撮影されているため、海外の田んぼの育成状況を解析するソリューションとしてそのまま展開していくこともできる可能性があるのです。そのため、開発したアプリケーションの潜在的な市場が広いということも面白い点と言えるでしょう。 [PR]機械学習で挫折しない学習方法を動画で公開中衛星データプラットフォーム市場におけるTellusの特徴 ――衛星データ市場の現状を教えてください。これまで宇宙開発は国主導が多かったのですが、最近では民間の衛星サービスが各国で始まっています。 2010年代には宇宙系のスタートアップ企業も多く出てきてたくさんの衛星が打ち上がりました。今では1社で百何十基の衛星を運用している企業もあり、気軽に衛星が上がるようになっています。それに伴い性能も高まっています。具体的には、撮影する画像の質が上がり始めています。高分解能の画像も撮れるようになったことで、例えば人影が見えたり、自動車のフロントガラスが撮影できたりします。この動きの中で、衛星画像の利用促進施策が、アメリカやヨーロッパや中国などにおいて国主導で進んでいます。衛星データビジネスは世界でも成功事例がまだ多くないため、私たちも手探りの中進んでいます。 ――世界的に見て未開拓な分野なので日本でも市場を延ばす余地があるということでしょうか。その期待値は上がっている状態です。世界を見ると、AmazonやSpaceXなどの企業も次に来るのは宇宙ビジネスだと信じて投資をしています。また、日本でも、2019年には、100億円規模の出資を受けた会社が3社あります。一方で、その注目度と投資額に反して、日本では宇宙ベンチャー企業は少ない現状もあります。日本には70社弱しかなく、そこに100社弱のVCから計500億円程が投資されています。ビジネス活用を促進してさらに宇宙ベンチャー企業を増やすことで、これをバブルにせず継続的な成長ができるよう支援していくつもりです。 ――様々な海外の衛星データが存在する中で、Tellusの独自性はどこでしょうか。クラウド完結型であること、それから地上データを扱える点です。今までの衛星データは、知識がないとどこのサーバに何のデータがあるのか分からない状態でした。またデータサイズが大きく、衛星データを1枚ダウンロードするのに30分から1時間かかりました。このような利用の煩雑さを解決すべく、Tellusは全てクラウド上で完結できるようにしています。クラウド上にデータが揃っていて、クラウド上で解析できる環境を作っているのです。これにより、強いネットワーク環境を持っていない方、高度なマシンスペックを持っていない人でも気軽に衛星データを解析できるようになります。また、Tellus内で地上データを扱えるようにし、少しでも衛星データが活用しやすい状態も作ろうとしています。その他の衛星データプラットフォームは衛星データだけを置いている場合が多いのですが、衛星データだけだと解析結果が正しいかどうか妥当性を検証しにくい点が課題です。 Tellusでは、点の地上データと面の衛星データを同じ場所に置いてあることで、活用の幅を広げていくことを試みています。 ――なぜ地上データの掛け合わせを行うことになったのでしょうか。ビジネス活用による民需の増加がTellusのゴールにあるためです。従来通りの学術利用目的の政府案件だったら、色々な場所に散らばっている衛星データをまとめて使えるプラットフォームを作るフェーズで終わりでした。ただ今回が経済産業省からの案件で、ゴールが多くの人から利用してもらい宇宙産業を発展させることだと考えると、衛星データだけでは得意不得意があるので工夫が必要と考えました。例えば、衛星データには広範囲を撮れる長所はありますが、一方で分解能が粗い短所があります。それを補完できる地上データがあると、衛星データをさらに幅広く使えるようになります。逆も然りで、ある点の情報から、他の点の情報を類推するのに衛星データを利用できます。解析結果と地上データを比較しやすい環境であれば、その妥当性をすぐに検証できるのです。地上データと衛星データを掛け合わせお互いの不得意を補い、ビジネス利用しやすくなることがゴールです。 Tellusの活用事例 ――実際に、Tellusを活用した解析の事例はありますか。オウンドメディアである宙畑を通して、おいしいみかん畑を探してみる、電動自転車が売れる場所の推測、テニスコートの素材、桜の開花時期の予測などを行いました。他には、海釣りで魚が釣れそうな場所の予測も行いました。魚のいる場所はある程度水温や潮目から推測でき、衛星データでそれらが分かるため、場所を割り当てて実際に釣りに行き、その結果、魚がたくさん釣れた事例もあります。これらの様子となぜ釣れたかの考察をオウンドメディアの「宙畑-sorabatake-」で公開しています。メディアで紹介した事例を元に、実践してみたり、アイデアを練ったりして、新たな事例を生み出していってほしいですね。宙畑-sorabatake-『衛星データで漁場を探して、実際に釣りに行ってみようvol.1 ~データ確認編~』の画像衛星データ全体に目を向けると、土砂崩れの検出、船の検出、海氷の検出などを行うアプリケーションが世の中には出始めていています。オイルタンクの貯蔵量から石油の残量を推測して、石油価格を予測する使い方もされています。石油タンクは落し蓋に似た形状になっていて、タンク中の石油残量に応じて蓋の位置が変わります。そうすると、影の高さが変化するため、影の面積から石油の残量を推定できるのです。様々な方が宇宙市場に入っていくことで、このような事例がどんどん出てくることを期待しています。石油タンク監視 Credit : Ursa Space Systems ――Tellusを扱うにはプログラミングの学習は必須なのでしょうか。必須ではないですし、プログラミングを習得していない人でも使いやすい状態を目指しています。 Tellusはインターフェースを2種類提供しており、プログラミングができる人向けの統合開発環境と、プログラミング不要でボタンを押しながら解析できる環境（GUI）があります。 GUIのインターフェースを用意している意図は、プログラミングができない人にも衛星データに興味を持っていただけたらと考えているためです。そして、そのような人が衛星データへの興味を深め、より幅広い活用のためにプログラミングを学習し、ビジネスシーンで活用してくれることが理想です。ただ、プログラミングができる方が、データを扱う上での選択肢は増えますので、より楽しめるとも思っています。そのための施策も合わせて提供していきたいと考えています。コラムコスパとタイパ、両方結果的に良くなる良くなる学び方とは？「スクールは高いし時間も縛られて効率が悪い」と考える方は多いと思います。もちろん、時間も費用もかかることは間違いありません。ただ結果的に無駄な学びにお金も時間もかける方がリスクが高いという考えもあります。

インタビュー

記事を検索

ニュース

インタビュー

テクノロジー

キャリア

お問い合わせ

【事例付き】自然言語処理とは！仕組みやライブラリを解説

目次

自然言語処理とは