レッスン1 / 2問目

『CSVファイルの読み込み』

機械学習やデータ分析を行う際には、分析や学習に用いるデータをファイルから読み込む工程があります。
このレッスンでは、データを読み込む工程においてよく使用されるPandasのread_csvメソッドについて学習していきます。

本レッスンでは以下の2つの内容について学習していきます。

  1. CSVファイルとは
  2. read_csv()の基本的な使い方

ではさっそく見ていきましょう。

CSVファイルとは

csvファイルのcsvは「comma separated variables」の略であり「カンマ区切りのデータ」を表します。

「カンマ区切りのデータ」と聞いても、いまいちどのようなものかわからないと思いますので一つ例を挙げます。

例えば、これまで何度か例題として扱ってきた不動産の成約価格のデータは以下のようなCSVファイルとなります。

"面積","距離","価格" 50,20,2500 45,15,2200 70,15,3200 65,20,3000 68,20,2800

上記のようにcsvファイルはカンマと改行だけでデータの形状が表される非常にシンプルなデータ形式となっています。そのため様々な形式のファイルと互換性があります。

csvファイルをもう少しイメージしやすくするならば、エクセルのようなデータだと考えてください。csvファイルの場合はデータはカンマで区切られていますが、エクセルの場合は文字列はセルで区切られています。

以下は上記のcsvファイルをエクセルに変換したものです。

csvファイルはデータ分析でもよく登場するためこのような形式のデータであるということも覚えておきましょう。

read_csv()

では、csvファイルを読み込むread_csvメソッドについて見ていきましょう。

read_csv()を使うと、読み込んだcsvファイルからDataFrameを作成することができます。
ここでは以下のデータをpd.read_csv()で読み込みます。

ファイルパス:"/sample1.csv"

"面積","距離","価格"    # 読み込むデータ 50,20,2500 45,15,2200 70,15,3200 65,20,3000 68,20,2800

では上記のデータを読み込んでいきましょう。

csvファイルを読み込むには以下のようにpd.read_csv()の引数にファイルのパスを渡します。

  1. df = pd.read_csv("/sample1.csv")
  2. print(df)
面積 距離 価格    # 読み込んだcsvファイル 0 50 20 2500 1 45 15 2200 2 70 15 3200 3 65 20 3000 4 68 20 2800

無事にcsvファイルを読み込むことができました。このように、read_csv()を使えば読み込んだcsvファイルを簡単にDataFrameに変換することができます。

機械学習やデータ分析では、上記のようにファイルを読み込み、その読み込んだデータに対して加工を加えていくという流れになります。

ちなみにread_csv()の引数に指定したパスとは、ファイルの場所を表すものです。

まとめ

read_csv()はこれ以降のレッスンでもよく登場するメソッドになりますので、必ずマスターするようにしましょう。また、read_csv()には様々な引数を指定することができます。ここでは基本的な読み込み方の説明に留まりますが、以降で引数についても学習していきます。

ではこのレッスンの内容を以下にまとめます。

  • csvファイルとはカンマ区切りのデータである
  • csvファイルを読み込むにはpd.read_csv()の引数にファイルパスを渡す

ではレッスンは以上となります。演習課題にチャレンジしましょう。

Lesson1

まずはpandasをインポートしてください。

Lesson2

以下のように20件のデータが格納されているcsvファイルがあります。
read_csv()を用いてこのデータを読み込み、読み込んだデータを変数dfに代入してください。
なお、ファイルパスは以下の通りとなります。

ファイルパス:"/sample3.csv"

面積 距離 価格 0 50 20 2500 1 45 15 2200 2 70 15 3200 3 65 20 3000 4 68 20 2800 5 52 15 2500 6 82 30 3500 7 72 15 3300 8 70 12 3200 9 30 10 1800 10 40 15 2200 11 55 10 2800 12 48 12 2500 13 63 15 3200 14 73 5 3700 15 72 15 3300 16 82 11 3900 17 74 16 3600 18 79 18 3800 19 25 3 1300

Last updated:2019/12/20

面積  距離    価格
0   50  20  2500
1   45  15  2200
2   70  15  3200
3   65  20  3000
4   68  20  2800
5   52  15  2500
6   82  30  3500
7   72  15  3300
8   70  12  3200
9   30  10  1800
10  40  15  2200
11  55  10  2800
12  48  12  2500
13  63  15  3200
14  73   5  3700
15  72  15  3300
16  82  11  3900
17  74  16  3600
18  79  18  3800
19  25   3  1300
  1. # pandasをインポートしてください

  2. import pandas as pd

  3. # 指定したcsvファイルを読み込みdfに代入してください

  4. df = pd.read_csv("/sample3.csv")
  5. print(df)
main.py
設定
g
n
i
d
a
o
L