レッスン1 / 1問目

『スクレイピングとは』

練習問題

スクレイピングの概要についての練習問題にチャレンジしましょう。

(自己採点式です。)

Lesson1

スクレイピングとは?

web上から自動的にデータを抽出するプログラムです。

Lesson2

スクレイピングの手順について答えよ

以下の工程に分けられます。

  1. web上からデータを取得する
  2. 取得したデータを解析する

Lesson3

web上からデータを取得するライブラリを答えよ

urllibとrequestsがありますが、当サイトではrequestsを紹介します。

Lesson4

取得したデータを解析するライブラリを答えよ

beautifulsoupなどがあります。



お疲れさまでした。

判定ボタンを押してレッスンを終了してください。

Last updated:2020/2/2

main.py
設定
g
n
i
d
a
o
L

                 
        

    
            

Leagence Programming

はじめに

レッスン「Pythonによるスクレイピング入門」へようこそ
このレッスンではスクレイピングの概要ついて学習していきます。

本レッスンでは以下の内容を解説していきます。

  1. スクレイピングとは
  2. スクレイピングでできること
  3. スクレイピングの手順
  4. クローリングとは
  5. 前提知識と注意点

スクレイピングとは

スクレイピングとはweb上から自動的にデータを抽出するプログラムです。
例えばweb上から機械学習に必要な画像やテキストのデータを収集したりすることができます。

この他にも、ECサイトの情報を自動的に取得するなど、様々な活用方法が考えられます。

ちなみにスクレイピングを行なうプログラムをスクレイパーと呼びます。

スクレイピングでできること

スクレイピングを活用することでデータ収集や業務の効率化において様々なことを実現することが可能となりますが、ここではどのような活用方法があるのか見ていきましょう。

例としては以下の通りです。

  • 機械学習におけるデータ収集
  • 為替や株価情報の取得
  • 市場調査
  • 顧客リストの作成
  • 競合他社の調査
  • ECサイトにおけるランキングなどの情報を取得
  • SEO(検索エンジン最適化)
  • SNSなどでの情報収集
  • 行政機関などのオープンデータの取得

スクレイピングの活用では前頁で示した活用方法が考えられますが、これらはスクレイピングでできることのほんの一部にすぎません。

スクレイピングの技術を理解し活用することで、自身の業務を自動化・効率化することができることでしょう。

スクレイピングの手順

スクレイピングを行う手順を見ていきましょう。

スクレイピングは以下の工程に分けられます。

スクレイピングにはこれら二つの工程がありwebからデータを取得する行為をクローリングと呼び、データを解析する行為をスクレイピングと呼びます。また、これらを総称してスクレイピングとも呼びます。

スクレイピングで使用するライブラリ

スクレイピングを行うためのライブラリとして、
以下のものが用意されています(一部抜粋)。

ライブラリ説明
urllibweb上からデータを取得
requestsweb上からデータを取得
Beautifulsoup取得したデータを解析

urllibとrequestsは同じ機能を持つライブラリですが、当サイトではrequestsを紹介します。requestsは標準ではPythonに組み込まれていないサードパーティーライブラリですが、urllibよりも高機能でシンプルなコードで記述することができるという特徴があるため一般的にはrequestsが使用されます。

クローリングについて

クローリングとはweb上を定期的に巡回し、情報を取得するプログラムです。

有名なクローラーにGoogle社のgoogle botがあります。Google botでは定期的に各サイトを巡回し、データベースにページの情報を保存することで検索エンジンを実現しています。

前提知識と注意点

スクレイピングではwebページのHtmlを取得するため、基本的なHtmlの知識が必要となります。具体的には、Htmlの書き方やaタグやimgタグ、pタグなどの基本的なタグの意味を理解している必要があります。

また、スクレイピングではスクレイピング対象のサーバー負荷や利用規約を考慮する必要があります。そのため当サイトではアクセスできるwebページや記述することができるコードを制限しています。