レッスン2 / 3問目

『Beautiful Soupによる属性とテキストの取得』

このレッスンではBeautifulSoupについてさらに詳しく見ていきましょう。

前回のレッスンと同様下記サンプルページを使用します。

https://manage.leagence-prog.com/sample1/

まずはrequestsでwebページを取得し、BeautifulSoupでインスタンス化します。

  1. import requests
  2. from bs4 import BeautifulSoup
  3. r = requests.get("https://manage.leagence-prog.com/sample1/")
  4. soup = BeautifulSoup(r.text, "html.parser")

取得したwebページのaタグのテキストのみを取得するには以下のように「soup.a」に続けて「.text」と記述します。

  1. print(soup.a.text)
スクレイピングを学びたい方はこちら    # テキストのみを取得

次はaタグのhref属性を取得します。href属性を取得するには「soup.a」に続けて「.get("href")」と記述します。なお、aタグの中身は以下のとおりです。

aタグの中身:<a href="#">スクレイピングを学びたい方はこちら</a>

  1. print(soup.a.get("href"))
#    # 属性を取得

上記のようにget()に属性名を指定することで属性の値を取得することもできます。

ではレッスンは以上となります。

このレッスンではBeautifulSoupでhtmlタグのテキストと属性を取得する方法について解説しました。

Lesson1

requestsとBeautifulSoupをインポートしてください。


# 本レッスンではレッスンに必要のないコードや別のURlに対するrequestsは実行できない仕様になっています。
また、URLは変数を使用せず、直接requests.get()の引数に書き込んでください。

Lesson2

requestsを用いて下記URLからwebページを取得してください。

https://manage.leagence-prog.com/sample1/

Lesson3

取得したwebページからBeautifulSoupでオブジェクトを生成してください。

Lesson4

作成したオブジェクトaタグのテキストを出力してください。

Lesson5

作成したオブジェクトからaタグの属性を出力してください。


Last updated:2020/1/25

スクレイピングを学びたい方はこちら
#
  1. # 1. requestsとBeautifulSoupをインポートしてください
  2. import requests
  3. from bs4 import BeautifulSoup
  4. # 2. requestsを用いてwebページを取得してください
  5. r = requests.get("https://manage.leagence-prog.com/sample1/")
  6. # 3. BeautifulSoupでオブジェクトを生成してください
  7. soup = BeautifulSoup(r.text, "html.parser")
  8. # 4. 作成したオブジェクトからaタグのテキストを出力してください
  9. print(soup.a.text)
  10. # 5. 作成したオブジェクトからaタグの属性を出力してください。
  11. print(soup.a.get("href"))
main.py
設定
g
n
i
d
a
o
L