機械学習

データ分析のライブラリ！Pandasとは【初心者向け】｜現役エンジニアが解説

データの統計量を表示したり、グラフ化するなど、データ分析（データサイエンス）のライブラリPandasについて紹介しています。Pandasとは一体どんな機能を持っているのか、何ができるのか説明。実際に使用した説明も載せているので、よりイメージが湧くでしょう。

テックアカデミーマガジンは受講者数No.1のプログラミングスクール「テックアカデミー」が運営。初心者向けにプロが解説した記事を公開中。現役エンジニアの方はこちらをご覧ください。 ※ アンケートモニター提供元：GMOリサーチ株式会社　調査期間：2021年8月12日～8月16日　調査対象：2020年8月以降にプログラミングスクールを受講した18～80歳の男女1,000名　調査手法：インターネット調査

今回は、Pythonのデータ解析用ライブラリであるPandasについて解説します。

Pandasを使うと、データの統計量を表示したり、グラフ化するなど、データ分析（データサイエンス）や機械学習で必要となる作業を簡単に行うことができるようになります。

Pythonでデータ分析を行うには、必須のライブラリなので、ぜひこの記事を参考に、Pandasの使い方を覚えましょう。

なお本記事は、TechAcademyのAIオンライン講座の内容をもとに作成しています。

Pandasとは

Pandasは、Pythonでデータ分析を効率的に行うためのライブラリです。Pandasはオープンソース(BSDライセンス)で公開されており、個人／商用問わず、誰でも無料で利用することができます。

Pandasを使うと、

データの読み込みや統計量の表示
グラフ化
データ分析

に関する作業を容易に行うことができるようになります。また主要なコードはPythonまたはC言語で書かれており、Pythonだけでデータ分析を行うのと比較して、非常に高速に処理を行うことができます。

データ分析（データサイエンス）は、機械学習を行うまでの前処理（データの読み込み、クリーニング、欠損値の補完、正規化など）が、全ての作業の8〜9割を占めると言われています。Pandasを使うとそのような処理が効率的に行えるようになるため、Pythonで機械学習を行うには、Pandasは必須のライブラリとなっています。

[PR]機械学習で挫折しない学習方法を動画で公開中

Pandasの特徴

Pythonによるデータ分析で多く使われているライブラリといえば、PandasやMatplotlib、NumPyなどがあげられます。これらのライブラリはそれぞれ以下のような特徴があります。

Pandas

Pandasはデータの読込や並べ替え、欠損値（欠けている項目値）の補完などを行うことができるライブラリです。データ分析の前処理段階でとても多く利用されています。

データの読込はCSVやテキストだけでなく、エクセルやインターネット上で提供されている株価情報など、多様な形式のデータを読み込むことが出来ます。

また、Pandasの特徴はDataFrameという多機能な「表」にあります。DataFrameにはデータの平均値や行数などの概要的な特徴を把握する機能や、並べ替えや列名の変更などのデータを整形する機能があります。

またキーを指定しての集計やMatplotlibと連携してのグラフによる可視化など、データ分析のデータ前処理の段階で便利な多くの機能が提供されています。データ分析の過程では、Pandasである程度データをきれいに整えてから、NumPyで数値計算を行うようといったように、使い分けて利用することが多いでしょう。

Matplotlib

MatplotlibはPythonで代表的なグラフを描画するライブラリです。2Dだけでなく3Dも含めた多くの種類のグラフを描画することができます。

Matplotlibは慣れると使いやすいのですが、はじめは使い方がやや難しく感じると思います。そのような場合、PandasやSeabornなどのライブラリと組み合わせることで、見た目の良いグラフを簡単に描画することができます。

Matplotlibはデータ分析の様々な段階で、NumPyやPandasと組み合わせてデータの概要を把握したり、特徴を可視化するような目的で使用します。

NumPy

NumPyは数値計算や行列演算を行うライブラリです。複数の数値を配列としてまとめて扱ったり、行列演算を行ったりするのが得意です。

特にコンピューターで小数点以下を扱う際の標準的な形式である浮動小数点型の行列演算を高速に行うことが出来ます。また三角関数や平方根などの数値計算の機能も豊富です。

NumPyはある程度データの前処理が終わり、きれいに整ったデータに対して数値計算を行うのに向いているライブラリと言えます。

Pandasでできること

Pandasには多くの機能があります。主に利用する機能を確認してみましょう。なお以下でDataFrameと記載しているのはDataFrameオブジェクトを指しています。

データの読込

CSV形式のデータの読込：read_csv()
Excelファイルの読込：read_excel()
JSON文字列の読込：read_json()
pickle形式(Pythonオブジェクトを保存する形式)によるデータの読込/書込：read_pickle()、to_pickle()
インターネット上で提供されている株価情報の読込：pandas-datareader

データの特徴を把握

データの特徴を表示：DataFrame.info()
要約統計量を表示：DataFrame.describe()
データの一部を表示：DataFrame.head()、DataFrame.tail()
データの形状を表示：DataFrame.shape
行数を取得：DataFrame.index.values
列名を取得：DataFrame.columns.values
それぞれの列の型を取得：DataFrame.dtypes

データの切り出し（スライス）

データのスライス：DataFrame[]、DataFrame.iloc[]、DataFrame.loc[]
フィルタリング：DataFrame.query()

データの並べ替え

値による並べ替え：DataFrame.sort_values()
インデックスによる並べ替え：DataFrame.sort_index()
列名の変更：DataFrame.rename()

集計

列の集計：DataFrame.value_counts()
表の集計：DataFrame.groupby()
※groupby().sum()で合計、groupby().mean()で平均値得ることができる

可視化

Matplotlibのimportが必要

ヒストグラム：DataFrame.hist()
散布図、線グラフ：DataFrame.plot()
棒グラフ：DataFrame.bar()
箱ひげ図：DataFrame.boxplot()

欠損値の扱い

欠損値の確認：DataFrame.isnull().sum()
欠損値に値を埋める：DataFrame.fillna()
欠損値のある行を削除する：DataFrame.dropna()

その他

カテゴリー変数の展開：get_dummies()
列同士の相関を確認：DataFrame.corr()

コラム

コスパとタイパ、両方結果的に良くなる良くなる学び方とは？

「スクールは高いし時間も縛られて効率が悪い」と考える方は多いと思います。
もちろん、時間も費用もかかることは間違いありません。
ただ結果的に無駄な学びにお金も時間もかける方がリスクが高いという考えもあります。

コスパ・タイパ最適化の参考として、テックアカデミー卒業生がスクールを選んだ理由をご紹介します。

・困ったときに、質問や相談できる相手がいるため挫折しなかった
・プロとして必要なスキルのみを深く学べたので無駄がなかった
・副業案件の提供と納品までのサポートがあったので目的を達成できた

安価・短期間で広く浅く学んでも意味がありません。本当に自分の目的が達成できるか、それが重要です。
自分にどのスキルや学び方が合っているか、どんな学習方法かなど、お気軽に無料相談に参加してみませんか？

カウンセラー・現役のプロへ、何でも気軽に無料相談可能。 30分か60分お好きな時間が選べて、かつ3回まですべて無料でご利用できます。
無理な勧誘は一切ないので、お気軽にご参加ください。

今なら相談した方限定の割引・参加特典付き！無料相談はこちら

Pandasを使うメリット

データ分析であればExcelなどの表計算ソフトを使えば十分という方も多いでしょう。Pandasを使うと、大量データに対して何度でも同じ処理をプログラムを実行するだけで行うことができるというメリットがあります。

大量データの処理が可能

Pandasではパソコンのメモリ容量が許す限り、大量のデータをDataFrameに読み込んで処理を行うことが出来ます。動作速度も表計算ソフトほど遅くはなりません。

同じ処理を何度も再実行できる

1つ1つの作業を人間が操作して行うのではなく「プログラム」として記述することで、何度でも全く同じ処理を繰り返し実行することが可能となります。

データ分析では再現性が重要であり、手順書をもとにした人間の操作よりも、プログラムで処理自体を記述したほうが、確実に同じ処理を再実行することができます。

また、大量データに対する処理は数時間～数日も時間を要することがあります。このような場合でも、人間はプログラムを実行して結果を待つだけです。表計算ソフトのように、付きっきりで操作し続ける必要はありません。

さらにパソコンを複数台数用意して、条件を少し変えたプログラムを同時並行で実行して結果を比較する、といったことも容易に実現可能です。

他のライブラリと連携し多彩な機能を実現できる

他のライブラリと連携することで、プログラムを実行してグラフを描画したり、加工した結果を表計算ソフトのファイルとして出力するなど、Pandasだけでは行えない多くのことを実現することができます。

Pandasを利用するには

Pandasを利用するには、Anacondaなどの「ディストリビューション」と呼ばれる開発環境をまとめたパッケージを使うのが簡単です。Anacondaは、データ分析やグラフ描画など、Pythonでよく利用されるライブラリを含んだ開発環境です。

ここではAnacondaを例にダウンロード手順と初期設定について確認しましょう。

ダウンロード手順

Anacondaの公式サイトからProducts > Individual Edition > Downloadを表示します。

Anaconda – Individual Edition – Download

Windows、Mac共に「Python 3.7 – 64-Bit Graphical Installer」をクリックしてダウンロードします。なお、Python2.7は古いバージョンであり、サポート期間が2020年4月とすでに終了しています。どうしても必要な場合を除き、利用することは無いでしょう。

ダウンロードしたファイルを実行することでインストールを行うことが出来ます。選択肢などは既定値のままで良いでしょう。

初期設定

インストールが終わったら、Anaconda Navigatorを起動します。はじめに初期設定として必要なライブラリをインストールしましょう。

ライブラリのインストールはEnvironmentsから行います。Environmentsを開き、「Not installed」を選択して検索ボックスに「pandas」と入力します。

一覧にPandasが表示されますので、チェックボックスで選択し、画面右下のApplyボタンを押すことでインストールすることができます。

また、今回は説明用にscikit-learnのサンプルデータセット（トイデータセット）を使用します。同様にscikit-learnとnumpy、matplotlibもインストールしておきましょう。

インストールが終わったらHomeに戻ります。プログラムはJupyter Notebookで作成します。画面の「jupyter notebook」と書かれた部分の「Launch」ボタンをクリックします。

初回は「Install」ボタンになっており、クリックするとJupyter Notebookがインストールされます。

以降は、Jupyter Notebookをもとに、Pandasの使い方を説明します。

Pandasの使い方

Pandasを使う際は、初めにPandasライブラリをインポートします。併せてサンプルデータセットも利用できるようにしておきましょう。

# Pandas、及び必要なライブラリのインポート
import pandas as pd
from pandas import DataFrame
import numpy as np

# サンプルデータセットを取得する
from sklearn import datasets
boston = datasets.load_boston()

実行結果は特にありません。エラーがでなければ、正しくインポートされています。

次に、サンプルデータセットをPandasのDataFrame型に変換しておきます。なお、今回はサンプルデータセットを使いましたが、CSVデータを読み込むread_csvという命令も用意されています。

# PandasのDataFrame型に変換
df = DataFrame(boston.data, columns = boston.feature_names)
# 目的変数をDataFrameへ追加
df['MEDV'] = np.array(boston.target)

準備が整いました。それではPandasの命令を幾つか見ていきましょう。

データの概要を確認する

先頭5行を表形式で表示する

df.head()

実行結果は以下のようになります。

行列数を表示する

df.shape

実行結果は以下のようになります。

(506, 14)

細かい情報を表示する

dataset.info()

実行結果は以下のようになります。

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21613 entries, 0 to 21612
Data columns (total 21 columns):
id               21613 non-null int64
date             21613 non-null object
...
sqft_living15    21613 non-null int64
sqft_lot15       21613 non-null int64
dtypes: float64(5), int64(15), object(1)
memory usage: 3.5+ MB

データの統計量を確認する

統計量を表示する

df.describe()

実行結果は以下のようになります。

countは件数、meanは平均値、stdは標準偏差、minは最小値、25%・50%・75%は四分位点、maxは最大値を表します。

その他の統計量を表示する

print("平均値:", df.MEDV.mean())
print("中央値:", df.MEDV.median())
print("分散:", df.MEDV.var())

実行結果は以下のようになります。

平均値: 22.5328063241
中央値: 21.2
分散: 84.5867235941

グラフを表示する

グラフ表示は内部でmatplotlibを利用します。

ヒストグラムを表示する

全てのデータだと時間がかかるため、100件で表示しています。

df.MEDV[:100].hist()

実行結果は以下のようになります。

その他、散布図や棒グラフ、箱ひげ図など、多くのグラフを描画することができます。

データを加工する

型を変換する

以下ではfloat型に変換しています。

df.MEDV.astype(float)

実行結果は以下のようになります。

0      24.0
1      21.6
2      34.7
3      33.4
4      36.2
5      28.7
（以下、略）

行・列を指定して取り出す

ixを利用することで、表の一部を取り出すことができます。

df.ix[:9][['AGE', 'MEDV']]

実行結果は以下のようになります。

列に対する演算を行う

df['MEDV2'] = df['MEDV'] * 2
df.head()

実行結果は以下のようになります。列同士の計算も簡単に行うことができます。

欠損値を補完する

欠損値とは、データに含まれる値が無い部分です。例えば、例えばCSVファイルをPandasを利用して読み込んだ時、要素の値が空白だと、欠損値とみなされます。欠損値はNaN(Not a Number)とも表現されます。

欠損値への対応としては、行または列を削除する、欠損値を0などに置き換える、といった方法があります。欠損値を0などに置き換えることを、欠損値の補完と言います。

欠損値を補完するには、fillna命令を使用します。

df.fillna(0, inplace=True)

実行結果はありませんが、データに含まれる欠損値が0で置き換わっています。

Pandasには、この他ピボットテーブルの作成、クロス集計、行列への関数の一括適用など、データ分析に必要な処理が多く含まれています。公式サイトなども参考にしてみてくださいね。

Pandas公式サイト

Pandasをより便利に使う方法

Pandasのオプションを指定することでDataFrameの結果をより見やすく変更することができます。一例として数値の表示方法を指定するオプションをご紹介します。まずは一部の列を抜き出したDataFrameを作成します。

df2 = df[['CRIM', 'ZN', 'CHAS', 'NOX', 'RM']]
print(df2)

実行結果は以下のようになります。

数値の表示方法は float_format オプションで指定します。数値の表示方法はPythonの書式指定文字列を使用して指定します。Pythonの書式指定文字列について、詳しくは公式ドキュメントも参考にしてください。

string – カスタムの文字列書式化

例えば以下は、全体で10桁右寄せ表示とする例です。「>」が右寄せ、「10」が10桁、「.4f」が小数点以下の桁数を表しています。

pd.options.display.float_format = '{:>10.4f}'.format
print(df2.head())

実行結果は以下のようになります。先ほどと見た目が変わり、すべての列が同じ桁数で表示されるようになりました。

ゼロ埋めすることも可能です。「0=」でゼロ埋めを表しています。

pd.options.display.float_format = '{:0=10.4f}'.format
 print(df2.head())

実行結果は以下のようになります。

Pandasのオプションでは、この他に様々な指定が可能です。オプションについて、詳しくは公式ドキュメントも参考にしてください。

Pandas – Options and settings(英語)

Pandasの勉強方法

ここまで見てきたように、Pandasには多くの機能があります。データ分析には欠かせないライブラリですが、機能が多すぎて、どこから勉強を始めたら良いか、分からない場合も多いことでしょう。最後にPandasの勉強方法についてご紹介します。

Pythonの勉強を行う

まずはPythonについて理解を深めましょう。特にPandasと考え方が共通するシーケンス(リスト、タプルなど)をしっかりと学習するようにします。以下でPythonの習得に役立つ記事を紹介しています。

「Python」カテゴリーの記事一覧

補助教材としては動画もおすすめです。YouTubeのTechacademyチャネルではPython入門の動画も公開しています。

Pythonとは？

Pandasの基礎を学ぶ

まずはDataFrameを中心に、Pandasの基本的な使い方を学びましょう。すべての機能を理解する必要はありません。DataFrameとはなにか、列や行、インデックスの考え方などを学ぶようにします。

学ぶ際は実際にプログラムを入力し、動作確認を行うことをおすすめします。この記事で紹介している主な機能や使い方などが参考になります。またYouTubeでもPandas入門の動画が多くありますので参考にすると良いでしょう。

データ分析にチャレンジしてみる

Pandasの基礎を学んだら、実際にデータを使ってデータ分析にチャレンジしてみましょう。はじめは以下のようなことを行うと良いでしょう。

データの平均値や最小値、最大値を確認する
グラフ化して、より詳細にデータの特徴を把握する
データの一部の行、一部の列を抜き出してみる
並べ替えを行う
欠損値が無いか確認し、あれば補完してみる

データはこの記事でも使用したscikit-learnのトイデータセットがおすすめです。この記事では「ボストンの住宅価格のデータセット」を使用しましたが、他にも様々な種類があるので参考にしてください。

scikit-learn datasets(英語)

より理解を深めるのであれば書籍の購入を検討すると良いでしょう。以下の書籍では具体的なデータの前処理の工程を例にPandasの使い方を紹介しています。

現場で使える！pandasデータ前処理入門機械学習・データサイエンスで役立つ前処理手法

Pandasについて、理解は深まったかな？

概要やプログラムの書き方など、勉強になりましたー！

サンプルプログラムをもとに、いろいろ試して学習を深めるといいよ！

深層学習や画像認識、自然言語処理については、また別のところで説明するね。

分かりました。ありがとうございました！

今回は、Pythonのデータ解析用ライブラリのPandasについて解説しました。これからPandasを勉強したい、機械学習を使って何か作ってみたいという方は最初に理解しておきたい内容でしょう。

この記事を監修してくれた方

太田和樹（おおたかずき）

ITベンチャー企業のPM兼エンジニア普段は主に、Web系アプリケーション開発のプロジェクトマネージャーとプログラミング講師を行っている。守備範囲はフロントエンド、モバイル、サーバサイド、データサイエンティストと幅広い。その幅広い知見を生かして、複数の領域を組み合わせた新しい提案をするのが得意。開発実績：画像認識技術を活用した駐車場混雑状況把握（実証実験）、音声認識を活用したヘルプデスク支援システム、Pepperを遠隔操作するアプリの開発、大規模基幹系システムの開発・導入マネジメント

地方在住。仕事のほとんどをリモートオフィスで行う。通勤で消耗する代わりに趣味のDIYや家庭菜園、家族との時間を楽しんでいる。

オンラインのプログラミングスクールTechAcademyでは、AIオンライン講座を開催しています。

AI（人工知能）の構築に必要な機械学習・ディープラーニングについて実践的に学習することができます。

現役エンジニアがパーソナルメンターとして受講生に1人ずつつき、マンツーマンのメンタリングで学習をサポートし、習得することが可能です。

現役エンジニアのサポートとカリキュラムを体感できる無料体験も実施しているので、まずはこちらからお試しください！

プログラミングを独学で学習していて、このように感じた経験はないでしょうか？

・調べてもほしい情報が見つからない
・独学のスキルが実際の業務で通用するのか不安
・目標への学習プランがわからず、迷子になりそう

テックアカデミーでは、このような学習に不安を抱えている方へ、マンツーマンで相談できる機会を無料で提供しています。
30分間、オンラインでどんなことでも質問し放題です。

「受けてよかった」と感じていただけるようカウンセラーやエンジニア・デザイナーがあなたの相談に真摯に向き合います。

「自分に合っているか診断してほしい」
「漠然としているが話を聞いてみたい」
こんなささいな悩みでも大丈夫です。

無理な勧誘は一切ありませんので、まずはお気軽にご参加ください。
※体験用のカリキュラムも無料で配布いたします。（1週間限定）

今なら参加者限定の割引特典付き！無料相談を予約する

概念を理解しよう！深層学習（ディープラーニング）とは

最近、人工知能（AI）関連のニュースでキーワードとしてよく取り上げられる深層学習（ディープラーニング）について解説します。 2010年代から、コンピュータ...

機械学習

時系列の種類やモデルの紹介！時系列分析とは【初心者向け】

今回は、時系列分析について解説します。時系列の種類や時系列データのモデルについて紹介しているので、どういった分析の仕方があるのかぜひ知っておきましょう。...

機械学習

グラフ描画ライブラリ！matplotlibの使い方【初心者向け】

今回は、Pythonのグラフ描画ライブラリであるmatplotlibについて解説します。 matplotlibを使うと、様々な種類のグラフを描画したり、イ...

機械学習

ディープラーニングで欠かせない！ニューラルネットワークとは

今回は、ニューラルネットワークについて解説します。ニューラルネットワークの仕組みについて説明し、種類も紹介しているので、ぜひ理解しておきましょう。 ...

機械学習

Pythonで使える！便利な機械学習ライブラリまとめ

今回は、便利なPythonで使える機械学習ライブラリをまとめて解説します。 Pythonで様々なライブラリを使用する際、Anacondaというソフトウェア...

機械学習

【徹底解説】機械学習（マシンラーニング）とは！まずはここから理解しよう

現在、幅広い業種で人工知能（AI）が使われています。またニュースや新聞でも、人工知能の報道を目にしない日はありません。このような状況の中、人工知能に興味...

機械学習

あわせてよく読まれている記事

PythonのPandasのDataFrameについて現役エンジニアが解説【初心者向け】

PythonのPandasのDataFrameについて、TechAcademyのメンター（現役エンジニア）が実際のコードを使用して、初心者向けに解説します。 Pythonについてそもそもよく分からないという方は、Pythonとは何なのか解説した記事を読むとさらに理解が深まります。なお本記事は、TechAcademyのオンラインブートキャンプ、Python講座の内容をもとに紹介しています。田島悠介今回は、Pythonに関する内容だね！大石ゆかりどういう内容でしょうか？田島悠介 PythonのPandasのDataFrameについて詳しく説明していくね！大石ゆかりお願いします！目次 Pandasとは PandasのDataFrameについて実際に書いてみようまとめ Pandasとは Pandasとは、データ分析を効率的に行うための外部ライブラリです。 Pandasをインストールするにはターミナル上に以下のようにcondaやpipなどのコマンドを打ちます。（この辺りはご自身の環境でどちらのパッケージマネージャーを使っているかによって異なります。） pip install pandas もしくは conda install pandas これでPandasがインストールできたかと思います。Pandasは一般的に以下のようにpdという名前を付けてimportします。（この記事を執筆するにあたってはjupyter notebookを用いています。） import pandas as pd Pandasを使うと、データの読み込みや表示だけでなく、データのグラフ化なども簡単に実現できます。CSVファイルを読み込んでPythonで扱うこともできるので非常に便利です。ちなみにCSVファイルはread_csv()メソッドにCSVファイルのパスを渡して以下のように読み込みます。 data = pd.read_csv("test.csv") 変数dataにはCSVファイルのデータが格納されました。実際に結果を表示してみます。（jupyter notebookではdataと変数名を打つと変数に格納されている中身を確認できます。）各生徒のテストの点数が科目ごとに表示されましたね。 [PR]機械学習で挫折しない学習方法を動画で公開中PandasのDataFrameについて次に、Pandasを扱う際に必ず抑えておくべきDataFrameという概念についてご説明します。 DataFrameとは、Pandasで表形式のデータを扱うためのデータ型のことです。先ほどの例で言えば、変数dataにはDataFrameが格納されています。念のためデータ型をtype()関数で確認してみます。【出力結果】 type(data) 【実行結果】 pandas.core.frame.DataFrame これで、変数dataはDataFrame型であると確認できましたね。実際に書いてみようそれでは読み込んだデータを実際に扱っていきましょう。ここではDataFrameのスライスを実施してみます。スライスはDataFrame名.loc[行][列]の形で実施します。例えば[2,3]のようにリスト形式で行を、[“japanese”, “social_study”]のように列を指定することも可能です。 #2行目のデータを取得 data.loc[2] #2行目と3行目のデータを取得 data.loc[[2,3]] #2行目の"japanese"列にあるデータを取得 data.loc[2]["japanese"] #2,3行目の"japanese","social_study"列にあるデータを取得 data.loc[[2,3]][["japanese","social_study"]] 自由自在にスライスすることができたかと思います。この他にも色々な指定方法があるので、是非ご自身で試してみてください。コラムコスパとタイパ、両方結果的に良くなる良くなる学び方とは？「スクールは高いし時間も縛られて効率が悪い」と考える方は多いと思います。もちろん、時間も費用もかかることは間違いありません。ただ結果的に無駄な学びにお金も時間もかける方がリスクが高いという考えもあります。コスパ・タイパ最適化の参考として、

Python

Pythonのpandasを利用してcsvファイルを操作する方法を現役エンジニアが解説【初心者向け】

Pythonのpandasを利用してcsvファイルを操作する方法について、テックアカデミーのメンター（現役エンジニア）が実際のコードを使用して初心者向けに解説します。目次PandasとはPandasの特徴PandasでできることPandasを使うメリットPandasを利用するにはPandasの使い方Pandasの勉強方法この記事を監修してくれた方そもそもPythonについてよく分からないという方は、Pythonとは何なのか解説した記事を読むとさらに理解が深まります。田島悠介今回は、Pythonに関する内容だね！大石ゆかりどういう内容でしょうか？田島悠介 Pythonのpandasを利用してcsvファイルを操作する方法について詳しく説明していくね！大石ゆかりお願いします！ 1. pandasモジュールとは？ pandasは、データ解析を支援する機能を提供するPythonライブラリです。効率的な二次元データ操作のためのDataFrameという形式のオブジェクトを使って、データを整形したり、集計・結合させたりすることができるライブラリになっています。 pandasの機能としてcsvのデータを読み書きする機能も提供されています。今回は数多く存在するpandasの機能の中からcsvを操作する方法を紹介していきます。 2. pandasモジュールの使い方 2-1. ライブラリのインストール pipでインストールできますので、以下の1行を実行します。 pip install pandas 2-2. pandasにおけるDataFrame形式 pandasでcsvを読みこむ場合、DataFrame形式に変換して扱います。 pandasでcsvを操作する前にDataFrame形式について説明します。 DataFrameオブジェクトは、下の図のように、複数の行と列から成る表形式のデータです。列名と、行名（インデックス）の情報と、中身であるデータの情報を持っています。列名や行名を使って特定のデータを抽出したり、集計したりすることができるため、pythonで表形式のデータを扱う際に非常に有用です。 2-3. csvの読み込みインストールできたらPython上では以下のようにライブラリをインポートします。 import pandas as pd csvを読み込む際には以下のように記述します。 df = pd.read_csv("ファイル名") オンライン上にあるcsvデータを参照する場合はそのcsvのリンクを引数に指定しても参照できます。上記のコードによって、csvデータの内容からpandasで処理可能なDataFrameオブジェクトが作成されます。ただし、そのまま読み込むとcsvの1行目が列名として扱われます。使用するデータに列名がない場合は、以下のように引数にheader=Noneとして列名のない設定にすれば、列名の代わりに自動的に0始まりの列番号を各列に割り振ることができます。 df = pd.read_csv('data/src/sample.csv', header=None) 2-4. csvの書き込み次にDataFrameをcsvとして書き込む方法です。書き込みたいDataFrameに対して、以下のコードでcsvを書き込みできます。 df.to_csv("ファイル名") [PR]機械学習で挫折しない学習方法を動画で公開中pandasモジュールを利用してcsvファイルを操作してみようそれでは、実際にcsvファイルを操作してみましょう。今回は以下のcsvを使用します。テキストエディタに以下の文字列を保存してください。ファイル名はsample.csvとします。 name, age Taro, 24 Ken, 21 Ichiro, 32 データの準備ができたら、以下のコードを実行してみてください。 import pandas as pd df = pd.read_csv("sample.csv") df["work"] = ["Engineer", "Student", "Baseball Player"] df.to_csv("out.csv") df = pd.read_csv("sample.csv")でsamlpe.csvを読みこみ, DataFrame型に変換し変数dfに格納しています。 df["work"] = ["Engineer", "Student", "Baseball Player"]で、DataFrameに新しい列workを追加し、値を入れています。 df.to_csv("out.csv")でwork列が追加されたDataFrameをout.csvという名前で出力しています。出力されたout.csvを確認すると、以下のようにwork列が追加されたcsvが出力されます。 ,name, age,work 0,Taro,24,Engineer 1,Ken,21,Student 2,Ichiro,32,Baseball Player コラムコスパとタイパ、両方結果的に良くなる良くなる学び方とは？「スクールは高いし時間も縛られて効率が悪い」と考える方は多いと思います。

Python

Pythonのpandasライブラリにおけるlocの利用方法について現役エンジニアが解説【初心者向け】

Pythonのpandasライブラリにおけるlocの利用方法について、テックアカデミーのメンター（現役エンジニア）が実際のコードを使用して初心者向けに解説します。目次PandasとはPandasの特徴PandasでできることPandasを使うメリットPandasを利用するにはPandasの使い方Pandasの勉強方法この記事を監修してくれた方そもそもPythonについてよく分からないという方は、Pythonとは何なのか解説した記事を読むとさらに理解が深まります。田島悠介今回は、Pythonに関する内容だね！大石ゆかりどういう内容でしょうか？田島悠介 Pythonのpandasライブラリにおけるlocの利用方法について詳しく説明していくね！大石ゆかりお願いします！この記事では、Pythonにおけるデータ解析のためのライブラリであるpandasのlocの使い方について解説します。 pandasとはまずは、pandasについて簡単に説明しておきます。 pandasというのは、Pythonにおいて表形式のデータ解析を効率的に行うためのライブラリです。 CSVなどのデータの読み込みや集計、データの加工、グラフ化、処理結果の保存などの処理ができます。また、機械学習においてもデータの前処理などで頻繁に使われています。データ解析、機械学習では必須のライブラリで、非常に便利で簡単に使うことができるため重宝されています。詳しい解説はデータ分析のライブラリ！Pandasとはなどを参考にしてください。 locとは pandasでは表形式のデータを扱う際に、DataFrameというデータ型を用います。このDataFrame型は、下の画像のような行(インデックス)と列から成る二次元のデータです。 locとは、行と列のラベルを指定して、各データである要素を参照するための方法の1つです。 locでは、行と列のラベル名を指定して、1つの要素を参照するだけでなく、範囲を指定して複数の要素を参照できます。具体的には、下記のように記述することで、指定した行、列についての要素が返ってきます。 DataFrameオブジェクト.loc['行ラベル名', '列ラベル名'] 複数の行、列を指定したい場合には、下のように行ラベル名のリスト、列ラベル名のリストを用います。 DataFrame型オブジェクト.loc[['行ラベル名1', '行ラベル名2', ...], ['列ラベル名1', '列ラベル名2', ...]] また、ラベルの指定の部分では、下記のようにスライス表記で範囲を指定することも可能です。 DataFrame型オブジェクト.loc['行ラベル名1' : '行ラベル名2', '列ラベル名1':'列ラベル名2'] [PR]機械学習で挫折しない学習方法を動画で公開中locを利用してCSVデータの値を取得してみようそれでは、実際にlocを使ってデータの値を取得してみましょう。なお、出力結果はJupyter Notebookでの結果を載せています。今回は、機械学習の練習の際によく使われるデータであり、scikit-learnに含まれているアヤメに関するデータを例として使います。まずはデータをダウンロードして、pandasで扱うDataFrame型に変換し、内容を確認してみましょう。 # ライブラリのインポート import pandas as pd from sklearn import datasets # 使うデータをダウンロード iris = datasets.load_iris() # データをDataFrameに変換 df = pd.DataFrame(iris.data, columns= iris.feature_names) # DataFrameの先頭の5行を表示 df.head(5) 読み込んだデータをDataFrame型に変換し、headメソッドで先頭5行を表示しています。下の画像のような出力結果になり、sepal length, sepal width, petal length, petal widthの4列から構成されるデータであることがわかります。出力それではlocを使って、このデータから一部の要素を抽出して取得してみましょう。 # locを用いて行が1、列が'sepal width (cm)'の要素を取得 df.loc[1, 'sepal width (cm)'] 出力 3.0 # locを用いて行が1,3,5、列が'sepal width (cm)', 'petal width (cm)'の要素を取得 df.loc[[1,3,5], ['sepal width (cm)', 'petal width (cm)']] 出力 # locを用いて行が1から5まで、列が'sepal width

Python

Pythonのpandasライブラリの使い方について現役エンジニアが解説【初心者向け】

Pythonのpandasライブラリの使い方について、TechAcademyのメンター（現役エンジニア）が実際のコードを使用して初心者向けに解説します。そもそもPythonについてよく分からないという方は、Pythonとは何なのか解説した記事を読むとさらに理解が深まります。なお本記事は、TechAcademyのオンラインブートキャンプPython講座の内容をもとに紹介しています。田島悠介今回は、Pythonに関する内容だね！大石ゆかりどういう内容でしょうか？田島悠介 Pythonのpandasライブラリの使い方について詳しく説明していくね！大石ゆかりお願いします！目次 pandasとは pandasの使い方 pandasを利用してCSVデータを取得してみようまとめ pandasとは pandasとはPythonライブラリの一つでデータを効率的に処理する為に開発されたライブラリです。 PandasではCSV等の様々なデータフォーマットの読み込み・削除・追加・書き出し等の処理ができます。また、pandasのデータフレーム機能を利用する事で、python上で一次元や二次元のデータ処理を簡単に実行できます。 Python上でExcelのようなデータ操作ができるイメージです。Pythonを使ったデータサイエンス等の分野においても欠かすことのできないライブラリの1つとなってます。 [PR]機械学習で挫折しない学習方法を動画で公開中pandasの使い方 pandasを使ってCSVデータを読み込む場合は下記のようなコードを使用します。 # pandasライブラリのimport import pandas as pd # CSVデータをpandasを使用して読み込む data = pd.read_csv('csvパス',index_col='インデックスとして使用する列番号') pandasを利用してCSVデータを取得してみようそれではサンプルコードを参考にpandasを利用してCSVデータを取得してましょう。サンプルコードで使用するCSVはこちらからダウンロードしてください。 [sample.csv] ID 商品名価格 1 りんご 150 2 みかん 100 3 ぶどう 300 4 ばなな 200 5 もも 500 サンプルコード # pandasライブラリのimport import pandas as pd # csvデータをpandasを使用して読み込む data = pd.read_csv('sample.csv',index_col=0,encoding='shift_jis') # 取得したデータを出力してみよう print(data) 実行結果 ID 商品名価格 1 りんご 150 2 みかん 100 3 ぶどう 300 4 ばなな 200 5 もも 500 解説コード2行目では、pandasライブラリを読み込んでいます。コード5行目では、pandasを利用してsample.csvを変数dataにデータフレームとして読み込んでいます。今回はサンプルコードと同じディレクトリにsample.csvを配置しているのでCSVファイルのパスはファイル名のみになります。また、今回用意しているsample.csvはshift-jisで保存されているのでencordingを使って文字コードを揃えるようにしましょう。コード8行目では、読み込んだCSVデータをデータフレーム形式で出力しています。実行結果では読み込んだCSVデータがデータフレーム形式で出力されている事が確認できます。コラムコスパとタイパ、両方結果的に良くなる良くなる学び方とは？「スクールは高いし時間も縛られて効率が悪い」と考える方は多いと思います。もちろん、時間も費用もかかることは間違いありません。ただ結果的に無駄な学びにお金も時間もかける方がリスクが高いという考えもあります。

Python

PythonでCSVファイルの指定した行を削除する方法を現役エンジニアが解説【初心者向け】

PythonでCSVファイルの指定した行を削除する方法について、TechAcademyのメンター（現役エンジニア）が実際のコードを使用して、初心者向けに解説します。 Pythonについてそもそもよく分からないという方は、Pythonとは何なのか解説した記事を読むとさらに理解が深まります。なお本記事は、TechAcademyのオンラインブートキャンプ、Python講座の内容をもとに紹介しています。田島悠介今回は、Pythonに関する内容だね！大石ゆかりどういう内容でしょうか？田島悠介 PythonでCSVファイルの指定した行を削除する方法について詳しく説明していくね！大石ゆかりお願いします！ Pandasとは Pandasとは、Pythonでデータを簡単に扱うためのライブラリです。特にCSVファイルなどのファイルを扱う際によく用いられます。CSVファイルとは、Commma Separated Valueの略で、コンマで区切られたデータを表します。この記事では説明のために以下のようなデータを例に用います。各行がテストを受けた生徒の名前、各列がテストの科目名に対応しています。 pandas_test.csv 名前,国語,社会,数学,理科,英語 A,78,80,76,56,72 B,66,91,48,88,90 C,90,84,94,81,94 D,65,73,63,52,70 E,97,62,84,80,72 F,96,91,78,92,90 G,66,72,71,78,81 Pandasで読み込んだファイルはDataframeというPandas固有のオブジェクトとしてPython上で扱うことができます。Dataframeは追加・変更・削除といった基本操作が簡単に行えます。ところで、機械学習を実施する際に必要なデータの前処理は作業全体の8割ほどを占めています。Pandasを使えばこれらの処理が簡単にできるため、Pythonで機械学習を行う際にもPandasは必要不可欠なライブラリとなっています。PythonでCSVファイルを扱うためには、まず最初にPandasをimportする必要があります。 Pandasはimportしてからはpdという略称で用いるのが一般的です。また、CSVファイルの読み込みは、pd.read_csv()というメソッドで行います。引数にはカレントディレクトリから見たCSVファイルのパスを記載します。このコードでは実行ファイルと同じ階層にpandas_test.csvというファイルがあることを想定しています。 import pandas as pd #CSVファイルの読み込み df = pd.read_csv("pandas_test.csv") print(df) print(type(df)) print()やtype()を使って、CSVファイルがきちんと読み込めていることや、読み込んだオブジェクトの型がDataframeであることが確認できましたね。 Pandasのdrop関数による指定行の削除方法次にdrop関数を用いてDataframe内の指定した行を削除していきます。drop関数の第一引数には削除したい行のインデックスを、第二引数にはaxis=0を指定します。2次元データではaxis=0は行を、axis=1は列を表します。それではコードを書いていきましょう。 df = df.drop(2, axis=0) print(df) 再度Dataframeを出力すると、指定した行が削除できているのが確認できます。ちなみに、列を削除したいときは列名を指定して以下のようにコードを書きます。 df = df.drop("数学", axis=1) print(df) さらに数学の列が消えたことが確認できましたね。 [PR]機械学習で挫折しない学習方法を動画で公開中実際に書いてみよう最後に、Pandasを使ったCSVファイルの行削除の流れをもう一度まとめて書いていきましょう。 import pandas as pd df = pd.read_csv("pandas_test.csv") df = df.drop(2, axis=0) print(df) まとめこの記事ではPandasでのCSVファイルの扱い方について簡単にご説明しました。ここでご紹介したのはPandasの機能のほんの一部です。他の様々な関数を使いこなせるようになることで、データの操作性がグッと高まります。データサイエンスや機械学習に興味のある方は、是非Pandasの使い方についてもっと詳しく勉強してみましょう。コラムコスパとタイパ、両方結果的に良くなる良くなる学び方とは？「スクールは高いし時間も縛られて効率が悪い」と考える方は多いと思います。もちろん、時間も費用もかかることは間違いありません。ただ結果的に無駄な学びにお金も時間もかける方がリスクが高いという考えもあります。

Python

PythonのライブラリPandasでの要素取得の書き方を現役エンジニアが解説【初心者向け】

PythonのライブラリPandasでの要素取得の書き方について解説します。そもそもPythonについてよく分からないという方は、Pythonとは何なのか解説した記事を読むとさらに理解が深まります。なお本記事は、TechAcademyのオンラインブートキャンプPython講座の内容をもとに紹介しています。田島悠介今回は、Pythonに関する内容だね！大石ゆかりどういう内容でしょうか？田島悠介ライブラリPandasでの要素取得の書き方について詳しく説明していくね！大石ゆかりお願いします！ライブラリPandasのDataFrame Pandasでは1次元配列のSeries、2次元配列のDataFrame、(あまり使うことはないですが)3次元配列のPanelでデータを扱います。 DataFrameとはわかりやすく言うと、Excelのような行と列の組み合わせでできているデータのことです。ライブラリPandasのDataFrameの要素取得のための属性(loc, iloc, at iat, ix など) 前述のとおり、行と列の組み合わせでデータが構成されているので、欲しいデータを取得するためには「n行目のm列目の値が欲しい」などのように指定をする必要があります。ここでは要素取得の方法(属性)をいくつか説明します。 loc 行ラベル、列ラベルで要素を指定します。’:’と組み合わせることで、行全体や列全体、指定範囲の行や列のデータを取得できます。 iloc 行番号、列番号で要素を指定します。’:’と組み合わせることで、行全体や列全体、指定範囲の行や列のデータを取得できます。 at, iat atは行ラベルと列ラベルで、iatは行番号と列番号で要素を指定します。loc、ilocとの違いは複数要素を取得できないことです。 ix 行番号、列番号で要素を指定します。’:’と組み合わせることで、行全体や列全体、指定範囲の行や列のデータを取得できます。 ※Pandas v0.20.0以降では非推奨となっているため、できるだけ使わない方が良いでしょう。要素取得のための各属性（loc,iloc,at iat,ixなど）の比較指定方法ラベルで指定: `loc`、`at` 番号で指定: `iloc`、`iat`、`ix` 取得要素数単一: `at`、`iat` 複数: `loc`、`iloc`、`ix` [PR]機械学習で挫折しない学習方法を動画で公開中要素取得のための各属性（loc,iloc,at iat,ixなど）の書き方 loc 単一の要素を取得 df.loc[“label_row”, “label_col”] 行全体を取得 df.loc[“label_row”]、もしくは df.loc[“label_row”, :] 列全体を取得 df.loc[:, “label_col”] 指定範囲の要素を取得 df.loc[“label_row_a”:”label_row_b”, “label_col_a”:”label_col_b”] iloc 単一の要素を取得 df.loc[0, 1] 行全体を取得 df.loc[0]、もしくは df.loc[0, :] 列全体を取得 df.loc[:, 1] 指定範囲の要素を取得 df.loc[0:2, 1:3] at iat at df.at[“label_row”, “label_col”] iat df.iat[0, 1] ix 単一の要素を取得 df.ix[0, 1] 行全体を取得 df.ix[0]、もしくは df.ix[0, :] 列全体を取得 df.ix[:, 1] 指定範囲の要素を取得 df.ix[0:2, 1:3] 実際に書いてみようサンプルコード Pandasのimport、データ準備 import pandas as pd

Python

記事を検索

ニュース

インタビュー

テクノロジー

キャリア

お問い合わせ

目次

Pandasとは

Pandasの特徴

Pandas

Matplotlib

NumPy

Pandasでできること

Pandasを使うメリット

大量データの処理が可能

同じ処理を何度も再実行できる

他のライブラリと連携し多彩な機能を実現できる

Pandasを利用するには

ダウンロード手順

初期設定

Pandasの使い方

データの概要を確認する

先頭5行を表形式で表示する

行列数を表示する

細かい情報を表示する

データの統計量を確認する

統計量を表示する

その他の統計量を表示する

グラフを表示する

ヒストグラムを表示する

データを加工する

型を変換する

行・列を指定して取り出す

列に対する演算を行う

欠損値を補完する

Pandasをより便利に使う方法

Pandasの勉強方法

Pythonの勉強を行う

Pandasの基礎を学ぶ

データ分析にチャレンジしてみる

この記事を監修してくれた方

記事を検索

関連するキーワード

関連する記事

あわせてよく読まれている記事

TechAcademyから 現役エンジニアの方へ お知らせ

TechAcademyから
現役エンジニアの方へ
お知らせ