レッスン1 / 1問目

『Pandasの概要』

Lesson1

まずはPandasをpdという名前でインポートしてください。

Lesson2

Seriesを作成し、作成したSeriesオブジェクトを出力してください。Seriesには以下のデータを渡してください。

[3, 6, 9]

Last updated:2020/1/29

0    3
1    6
2    9
dtype: int64
  1. # 1.Pandasをインポートしてください

  2. import pandas as pd

  3. # 2.Seriesを作成し、作成したSeriesオブジェクトを出力してください

  4. series = pd.Series([3, 6, 9])
  5. print(series)
main.py
設定
g
n
i
d
a
o
L

                 
        

    
            

Leagence Programming

Pandasとは

レッスンPandasへようこそ
このレッスンではPandasの概要について学習していきましょう。

Pandasとはデータ解析を行うためのPythonのライブラリです。機械学習やデータ分析においてデータの読み込み前処理などに用いられます。そのためPythonで機械学習を行なう上では必須のライブラリとなります。

これまで学習したNumPyではndarrayという多次元配列のデータ構造で数値を扱いましたが、PandasもNumPyと同じようにDataFrame、Seriesと呼ばれる2種類のデータ構造でデータを扱います。

NumPyはNumerical Pythonという名前の通り数値を扱うことが得意なライブラリであり、数値以外のデータを扱うことには適していません。PandasはNumPyをより扱いやすく便利にしたライブラリであり、csv(カンマ区切りのデータ)やエクセルなどの様々なデータを扱うことができ、数値データ以外を扱う場合にも適しています。

Pandasの用途

Pandasはデータ分析、機械学習においてデータの読み込みや前処理に用いられるという説明をしましたが、

実際にどのように用いられるのかイメージがしづらいと思いますので、
ここでは具体的にどのような場合にPandasが用いられるのか見ていきましょう。

まず機械学習について簡潔に説明します。機械学習とは既存のデータから学習を行ない、値を予測したり分類したりすることを指します。
以下は不動産賃貸物件の成約事例のデータです。このデータには「駅からの距離」「部屋の面積」「賃料」という項目があります。機械学習ではこのデータを学習することによって距離と面積から賃料を予測することができます。

距離 面積 賃料 500 21 61000 600 30 71000 350 40 90000 300 35 73000 120 22 60000 150 25 65000

しかし、機械学習を行なうにはこのデータを整形し機械学習を行なうことができる形に変形しなければなりません。

このデータの場合「面積」と「距離」から「賃料」を予測しているため、前処理の一つとして「距離」「面積」と「賃料」を分ける工程があります。

このようにデータを整形する工程を前処理といいます。

そしてこの前処理を行うライブラリがPandasです。実際には他にも様々な用途がありますが、そちらに関しては以降のレッスンで詳しく学習していきます。

DataFrameとSeries

冒頭でPandasはDataFrameとSeriesというデータ構造を持つことを説明しました。

これらを簡潔に説明するとSeriesは一次元のデータ構造であり、DataFrameは行と列をもった二次元のデータ構造です。

これ以降のPandasのレッスンではこのDataFrameとSeriesの扱い方を順番に学習していきます。

Pandasのインポート

ではここからはPandasの基本的な使い方を見ていきましょう。

pandasを扱うにはインポートが必要となります。
Pandasは以下のように「pd」という名前でインポートされるのが一般的です。

  1. import pandas as pd

NumPyがnpとしてインポートされるのと同じで、
Pandasも慣習としてpdという名前でインポートされるため本レッスンでもこの慣習に従います。

ではこのレッスンではSeriesを作成する方法を例に挙げます。Seriesを作成するには以下のように「pd.Series()」にデータを渡します。

  1. import pandas as pd    # インポート
  2. series = pd.Series([5, 10, 15])    # Seriesの生成
  3. print(series)
0 5 1 10 2 15 dtype: int64

このようにpd.Series()にデータを渡すだけで簡単にSeriesを作成することができます。

前頁の出力を見ていただくとわかる通りSeriesはデータに対応するインデックスとdtypeを持ちます。これらについてはSeriesのレッスンで詳しく学習します。
このレッスンはPandasの概要を把握することを目的としているためSeriesに関しての説明はここまでに留めておきます。

では演習課題ではPandasのインポートとSeriesの作成にチャレンジしましょう。