レッスン1 / 1問目

『データ件数の絞りこみ』

このレッスンではデータ件数を絞り込む方法について学習していきます。

データの件数を絞り込むメソッドは以下の通りです。

メソッド説明
head()データの先頭から絞り込む
tail()データの末尾から絞り込む

これらのメソッドについて順番に見ていきます。

head()

まずはhead()です。head()はデータの件数を先頭から絞り込みます。

例えば以下のような件数の多いデータがあったとします。

面積 距離 価格 0 50 20 2500 1 45 15 2200 2 70 15 3200 3 65 20 3000 4 68 20 2800 5 52 15 2500 6 82 30 3500 7 72 15 3300 8 70 12 3200 9 30 10 1800 10 40 15 2200 11 55 10 2800 12 48 12 2500 13 63 15 3200 14 73 5 3700 15 72 15 3300 16 82 11 3900 17 74 16 3600 18 79 18 3800 19 25 3 1300

このような件数の多いデータの内容を確認する際は、head()で件数を絞り込みます。

以下のようにdfに続けてhead()と記述するとデータが先頭から5件に絞り込まれます。

  1. df = pd.read_csv("/sample3.csv")
  2. print(df.head())    # 件数を絞り込む
面積 距離 価格    # データ数が5件に絞り込まれる 0 50 20 2500 1 45 15 2200 2 70 15 3200 3 65 20 3000 4 68 20 2800

head()を用いることで20件あったデータが5件に絞り込まれました。


また、head()は引数に表示するデータの件数を指定することができます。
以下ではデータの件数を先頭から2件に絞り込んでいます。

  1. df = pd.read_csv("/sample3.csv")
  2. print(df.head(2))    # 引数に2を指定
面積 距離 価格    # データが2件に絞り込まれる 0 50 20 2500 1 45 15 2200

head()の引数に2を指定したためデータが2件に絞り込まれました。

tail()

では次はtail()について見ていきましょう。

head()がデータの件数を先頭から絞り込むメソッドであったのに対し、tail()はデータの末尾から件数を絞り込むことができます。

head()と使い方は同じで、以下のようにdfに続けて記述します。

  1. df = pd.read_csv("/sample3.csv")
  2. print(df.tail())
面積 距離 価格    # 末尾から5件を表示 15 72 15 3300 16 82 11 3900 17 74 16 3600 18 79 18 3800 19 25 3 1300

tail()も引数に何も指定しない場合は末尾から5件に絞り込みます。

また、head()と同様に引数を指定することで絞り込む件数を指定することができます。

まとめ

このレッスンではデータの件数を絞り込むhead()とtail()について学習しました。

機械学習やデータ分析を行う際は何千、何万という件数のデータを扱うため、内容を確認する際はhead()やtail()でデータの件数を絞り込むのが一般的です。

ではこのレッスンは以上となります。
演習課題にチャレンジしましょう。

Lesson1

20件のデータを持つdf1があります。df1のデータを先頭から5件に絞り込みdf2に代入してください。

なお、判定はdf2, df3に格納された値で行います。

Lesson2

df1のデータを末尾から3件に絞り込みdf3に代入してください。

Last updated:2019/11/8

面積  距離    価格
0  50  20  2500
1  45  15  2200
2  70  15  3200
3  65  20  3000
4  68  20  2800
    面積  距離    価格
17  74  16  3600
18  79  18  3800
19  25   3  1300
  1. import pandas as pd

  2. df1 = pd.read_csv("/sample3.csv")

  3. # 1. df1のデータを先頭から5件に絞り込みdf2に代入してください

  4. df2 = df1.head()
  5. print(df2)

  6. # 2. df1のデータを末尾から3件に絞り込みdf3に代入してください。

  7. df3 = df1.tail(3)
  8. print(df3)
main.py
設定
g
n
i
d
a
o
L